HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

18 papers found

SemanticGen: Генерация видео в семантическом пространстве
SemanticGen: Video Generation in Semantic Space

Dec 23

ByJianhong Bai, Xiaoshi Wu, Xintao Wang, Fu Xiao, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai

Современные модели генерации видео обычно изучают распределение латентных переменных видео в пространстве VAE и преобразуют их в пиксели с помощью VAE-декодера. Хотя этот подход позволяет генерировать видео высокого качества, он отличается медленной сходимостью и вычислительной затратностью при создании длинных видео. В данной статье мы представляем SemanticGen — новое решение, которое устраняет эти ограничения за счёт генерации видео в семантическом пространстве. Наше ключевое наблюдение заключается в том, что из-за присущей видео избыточности процесс генерации должен начинаться в компактном семантическом пространстве высокого уровня для глобального планирования с последующим добавлением высокочастотных деталей, а не с прямого моделирования обширного набора низкоуровневых видео-токенов с помощью двунаправленного внимания. SemanticGen использует двухэтапный процесс генерации. На первом этапе диффузионная модель генерирует компактные семантические признаки видео, определяющие глобальную структуру видео. На втором этапе другая диффузионная модель генерирует VAE-латентные переменные, обусловленные этими семантическими признаками, для получения конечного результата. Мы наблюдаем, что генерация в семантическом пространстве обеспечивает более быструю сходимость по сравнению с латентным пространством VAE. Наш метод также эффективен и вычислительно экономичен при масштабировании на генерацию длинных видео. Многочисленные эксперименты демонстрируют, что SemanticGen производит видео высокого качества и превосходит современные подходы и сильные базовые методы.

Оптимизация политики снизу вверх: ваша языковая модель скрывает внутренние политики
Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Dec 22

ByYuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu

Существующие подходы обучения с подкреплением (RL) рассматривают большие языковые модели (LLM) как единую унифицированную политику, игнорируя их внутренние механизмы. Поэтому понимание того, как политика эволюционирует по слоям и модулям, крайне важно для обеспечения более целенаправленной оптимизации и раскрытия сложных механизмов рассуждений. В данной работе мы декомпозируем политику языковой модели, используя внутреннее разделение резidual-потока Трансформера и эквивалентность между композицией скрытых состояний с матрицей развложения и результирующей сэмплируемой политикой. Эта декомпозиция выявляет Внутренние Политики Слоев, соответствующие вкладам от отдельных слоев, и Внутренние Модульные Политики, которые соответствуют компонентам self-attention и feed-forward network (FFN) внутри каждого слоя. Анализируя энтропию внутренней политики, мы обнаруживаем, что: (a) Ранние слои сохраняют высокую энтропию для исследования, а верхние слои сходятся к почти нулевой энтропии для уточнения, причем паттерны сходимости различаются в разных сериях моделей. (b) Пространство предсказаний LLama быстро сходится на последнем слое, тогда как модели серии Qwen, особенно Qwen3, демонстрируют более похожий на человеческий, прогрессивно структурированный паттерн рассуждений. Мотивированные этими находками, мы предлагаем Bottom-up Policy Optimization (BuPO), новую парадигму RL, которая напрямую оптимизирует внутреннюю политику слоев на ранних этапах обучения. Согласовывая цель обучения на нижних слоях, BuPO восстанавливает базовые способности к рассуждению и достигает превосходной производительности. Масштабные эксперименты на бенчмарках сложных рассуждений демонстрируют эффективность нашего метода. Наш код доступен по адресу https://github.com/Trae1ounG/BuPO.

LongVideoAgent: Мультиагентное рассуждение с длинными видео
LongVideoAgent: Multi-Agent Reasoning with Long Videos

Dec 23

ByRuntao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen

Последние достижения в области мультимодальных больших языковых моделей и систем, использующих инструменты для анализа длинных видео, указывают на перспективность рассуждений над эпизодами продолжительностью в час. Однако многие методы по-прежнему сжимают контент в сжатые, потерянные сводки или полагаются на ограниченный набор инструментов, что ослабляет временную привязку и упускает детальные сигналы. Мы предлагаем многозадачный фреймворк, в котором главная LLM координирует агента привязки для локализации релевантных вопросу сегментов и визуального агента для извлечения целевых текстовых наблюдений. Главный агент планирует действия с ограничением по шагам и обучается с подкреплением для поощрения лаконичного, корректного и эффективного меж-агентного взаимодействия. Такая конструкция помогает главному агенту фокусироваться на релевантных фрагментах через привязку, дополняет субтитры визуальными деталями и порождает интерпретируемые траектории. На наших наборах данных LongTVQA и LongTVQA+, агрегированных на уровне эпизодов из TVQA/TVQA+, наша много-агентная система значительно превосходит сильные не-агентные базовые методы. Эксперименты также показывают, что обучение с подкреплением дополнительно усиливает способности к рассуждению и планированию у обученного агента. Код и данные будут доступны по адресу https://longvideoagent.github.io/.

ПространственноеДерево: Как пространственные способности ветвятся в MLLM
SpatialTree: How Spatial Abilities Branch Out in MLLMs

Dec 23

ByYuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang

Когнитивная наука предполагает, что пространственные способности развиваются прогрессивно — от восприятия к рассуждению и взаимодействию. Однако в мутимодальных больших языковых моделях (МБЯМ) эта иерархия остается слабо изученной, поскольку большинство исследований сосредоточено на узком наборе задач. Мы представляем SpatialTree — иерархию, вдохновленную когнитивной наукой, которая организует пространственные способности на четыре уровня: низкоуровневое восприятие (У1), ментальное картографирование (У2), симуляция (У3) и агентная компетенция (У4). На основе этой таксономии мы создали первый ориентированный на способности иерархический бенчмарк, всесторонне оценивающий основные МБЯМ по 27 субспособностям. Результаты оценки выявляют четкую структуру: навыки У1 в значительной степени ортогональны, тогда как навыки более высоких уровней сильно коррелируют, что указывает на возрастающую взаимозависимость. С помощью целевого контролируемого тонкого настроения мы обнаружили удивительную динамику переноса: отрицательный перенос внутри У1, но сильный межуровневый перенос от низкоуровневых к высокоуровневым способностям с заметной синергией. Наконец, мы исследуем, как улучшить всю иерархию. Мы выяснили, что наивное обучение с подкреплением (ОР), поощряющее обширное «мышление», ненадежно: оно помогает сложным рассуждениям, но вредит интуитивному восприятию. Мы предлагаем простую стратегию авто-мышления, которая подавляет излишнюю рефлексию, позволяя ОР стабильно улучшать результаты на всех уровнях. Создав SpatialTree, мы предоставляем концептуальную основу для понимания и системного масштабирования пространственных способностей в МБЯМ.

MemEvolve: Метаэволюция систем памяти агентов
MemEvolve: Meta-Evolution of Agent Memory Systems

Dec 21

ByGuibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang, He Zhu, Wangchunshu Zhou, Shuicheng Yan

Системы саморазвивающейся памяти беспрецедентно преобразуют эволюционную парадигму агентов на основе больших языковых моделей (LLM). Предыдущие работы в основном опирались на ручную разработку архитектур памяти для хранения траекторий, обобщения опыта и синтеза повторно используемых инструментов, что позволяло агентам эволюционировать в процессе взаимодействия со средой. Однако эта парадигма фундаментально ограничена статичностью самой системы памяти: хотя память способствует эволюции на уровне агента, базовая архитектура памяти не может быть мета-адаптирована к разнообразным контекстам задач. Для преодоления этого разрыва мы предлагаем MemEvolve — мета-эволюционный фреймворк, который совместно развивает опытные знания агентов и их архитектуру памяти, позволяя системам агентов не только накапливать опыт, но и постепенно совершенствовать методы его усвоения. Чтобы обосновать MemEvolve в предыдущих исследованиях и способствовать открытости будущих саморазвивающихся систем, мы представляем EvolveLab — унифицированную кодобазу саморазвивающейся памяти, которая обобщает двенадцать репрезентативных систем памяти в модульное пространство проектирования (кодирование, хранение, извлечение, управление), предоставляя как стандартизированную основу для реализации, так и справедливую экспериментальную среду. Обширные оценки на четырех сложных агентных бенчмарках демонстрируют, что MemEvolve достигает (I) существенного прироста производительности, улучшая такие фреймворки, как SmolAgent и Flash-Searcher, до 17.06%; и (II) сильной кросс-задачной и кросс-LLM обобщающей способности, проектируя архитектуры памяти, которые эффективно переносятся на различные бенчмарки и базовые модели.

Обучение с подкреплением для самосовершенствующегося агента с библиотекой навыков
Reinforcement Learning for Self-Improving Agent with Skill Library

Dec 18

ByJiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

Агенты на основе больших языковых моделей (LLM) демонстрируют впечатляющие способности в решении сложных задач и многократных взаимодействиях, но испытывают трудности с непрерывным улучшением и адаптацией при развертывании в новых средах. Перспективным подходом является создание библиотек навыков, которые позволяют агентам изучать, проверять и применять новые умения. Однако современные подходы к созданию таких библиотек в основном опираются на промптинг LLM, что затрудняет последовательную реализацию библиотеки навыков. Для преодоления этих ограничений мы предлагаем подход на основе обучения с подкреплением (Reinforcement Learning, RL) для расширения возможностей самообучения агентов с помощью библиотеки навыков. В частности, мы представляем Skill Augmented GRPO for self-Evolution (SAGE) — новую RL-архитектуру, которая систематически интегрирует навыки в процесс обучения. Ключевой компонент архитектуры, Sequential Rollout, итеративно развертывает агентов в цепочке схожих задач для каждого этапа обучения. По мере прохождения агентом цепочки задач навыки, сгенерированные в предыдущих задачах, накапливаются в библиотеке и становятся доступными для последующих задач. Кроме того, архитектура улучшает генерацию и использование навыков с помощью Skill-integrated Reward, который дополняет исходные вознаграждения, основанные на результате. Эксперименты на платформе AppWorld показывают, что SAGE, примененная к модели, дообученной с учителем на экспертных данных, достигает на 8.9% более высокого показателя выполнения сценария, при этом требуя на 26% меньше шагов взаимодействия и генерируя на 59% меньше токенов, что существенно превосходит существующие подходы как по точности, так и по эффективности.

Технический отчет Step-DeepResearch
Step-DeepResearch Technical Report

Dec 23

ByChen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu

По мере перехода языковых моделей к автономным агентам, метрика Deep Research приобрела ключевое значение. Однако существующие академические бенчмарки, такие как BrowseComp, часто не отвечают реальным требованиям к открытым исследованиям, которые предполагают развитые навыки распознавания намерений, долгосрочного планирования и кросс-источниковой верификации. Для решения этой проблемы мы представляем Step-DeepResearch — экономичного сквозного агента. Мы предлагаем стратегию синтеза данных на основе атомарных возможностей для усиления планирования и написания отчетов в сочетании с прогрессивным путем обучения: от агентского mid-training к SFT и RL. Усиленный чеклист-оценщиком, данный подход значительно повышает устойчивость. Кроме того, для преодоления разрыва в оценке в китайскоязычной сфере мы создали ADR-Bench для реалистичных сценариев глубокого исследования. Эксперименты показывают, что Step-DeepResearch (32B) набирает 61,4% по Scale AI Research Rubrics. На ADR-Bench модель значительно превосходит аналогичные решения и конкурирует с закрытыми SOTA-моделями, такими как OpenAI и Gemini DeepResearch. Эти результаты доказывают, что оптимизированное обучение позволяет моделям среднего размера достигать экспертного уровня при рекордной отраслевой рентабельности.

SAM Audio: Сегментация всего в аудио
SAM Audio: Segment Anything in Audio

Dec 19

ByBowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee

Разделение общих аудиоисточников является ключевой функцией для мультимодальных систем искусственного интеллекта, способных воспринимать и анализировать звук. Несмотря на значительный прогресс последних лет, существующие модели разделения либо узкоспециализированы, разработаны для фиксированных категорий, таких как речь или музыка, либо ограничены в управляемости, поддерживая только один способ интерактивного управления, например, текстовые запросы. В данной работе мы представляем SAM Audio — фоновую модель для общего разделения аудио, которая объединяет текстовые, визуальные и временные подсказки в единой архитектуре. Построенная на основе диффузионной трансформерной архитектуры, SAM Audio обучается с помощью сопоставления потоков на крупномасштабных аудиоданных, охватывающих речь, музыку и общие звуки, и может гибко выделять целевые источники, описанные языком, визуальными масками или временными интервалами. Модель демонстрирует наилучшие результаты в разнообразных тестах, включая разделение общих звуков, речи, музыки и музыкальных инструментов как в реальных записях, так и в профессионально обработанных аудиодорожках, существенно превосходя предыдущие универсальные и специализированные системы. Кроме того, мы представляем новый эталонный тест разделения в реальных условиях с мультимодальными подсказками, размеченными человеком, и моделью оценки без эталонов, которая сильно коррелирует с человеческим суждением.

ИНТЕЛЛЕКТ-3: Технический отчет
INTELLECT-3: Technical Report

Dec 18

ByPrime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann

Мы представляем INTELLECT-3 — модель типа Mixture-of-Experts с 106 миллиардами параметров (12 миллиардов активных), обученную с помощью масштабируемого обучения с подкреплением на нашем сквозном инфраструктурном стеке для RL. INTELLECT-3 демонстрирует наилучшие для своего размера результаты на бенчмарках по математике, программированию, естественным наукам и логическим рассуждениям, превосходя многие более крупные фронтирные модели. Мы открываем исходный код модели вместе с полным инфраструктурным стеком, использованным для её создания, включая RL-фреймворки, полный рецепт обучения и обширную коллекцию сред для обучения и оценки, созданных с помощью библиотеки верификаторов, с нашей общественной платформы Environments Hub. Специально для этой работы мы представляем prime-rl — открытый фреймворк для крупномасштабного асинхронного обучения с подкреплением, который бесшовно масштабируется от одного узла до тысяч GPU и ориентирован на агентное RL с первоклассной поддержкой многошаговых взаимодействий и использования инструментов. Используя этот стек, мы провели как SFT, так и RL-обучение на основе модели GLM-4.5-Air-Base, масштабировав RL-обучение до 512 H200 с высокой эффективностью обучения.

Законы масштабирования для кода: значение каждого языка программирования
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai

Крупные языковые модели для программирования (Code LLMs) обладают высокой мощностью, но их обучение требует значительных затрат, при этом законы масштабирования предсказывают производительность на основе размера модели, объема данных и вычислительных ресурсов. Однако различные языки программирования (ЯП) оказывают неодинаковое влияние на этапе предварительного обучения, что существенно сказывается на производительности базовой модели и приводит к неточному прогнозированию результатов. Кроме того, существующие исследования сосредоточены на языково-независимых подходах, игнорируя изначально мультиязыковую природу современной разработки программного обеспечения. Следовательно, необходимо сначала изучить законы масштабирования для разных ЯП, а затем учесть их взаимное влияние для выведения итогового мультиязыкового закона масштабирования. В данной статье представлено первое систематическое исследование законов масштабирования для мультиязыкового предварительного обучения моделей программирования, включающее проведение более 1000 экспериментов (эквивалентно 336 000+ часов работы на H800) с использованием множества ЯП, размеров моделей (от 0,2 до 14 млрд параметров) и объемов данных (1 трлн токенов). Мы устанавливаем всеобъемлющие законы масштабирования для кодогенерирующих LLM при работе с несколькими ЯП, выявляя, что интерпретируемые языки (например, Python) получают больше преимуществ от увеличения размера модели и объема данных, чем компилируемые языки (например, Rust). Исследование демонстрирует, что мультиязыковое предварительное обучение обеспечивает синергетический эффект, особенно между синтаксически схожими ЯП. Более того, стратегия предварительного обучения с использованием параллельных пар (конкатенация фрагментов кода с их переводами) значительно улучшает кросс-лингвистические способности с благоприятными свойствами масштабирования. Наконец, предлагается пропорционально-зависимый мультиязыковой закон масштабирования, который оптимально распределяет учебные токены за счет приоритизации высокоэффективных ЯП (например, Python), балансировки высокосинергетических пар (например, JavaScript-TypeScript) и сокращения выделения ресурсов быстронасыщаемым языкам (Rust), что позволяет достичь превосходной средней производительности по всем ЯП по сравнению с равномерным распределением при том же вычислительном бюджете.

FaithLens: Обнаружение и объяснение галлюцинаций верности
FaithLens: Detecting and Explaining Faithfulness Hallucination

Dec 23

ByShuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

Определение наличия нарушений фактической достоверности (галлюцинаций) в выходных данных больших языковых моделей (БЯМ) является критически важным для практических применений, таких как генерация с использованием поиска и автоматическое реферирование. В данной статье мы представляем FaithLens — экономичную и эффективную модель для детектирования нарушений фактической достоверности, которая способна совместно предоставлять бинарные прогнозы и соответствующие объяснения для повышения надежности. Для достижения этой цели мы сначала синтезируем обучающие данные с объяснениями с помощью продвинутых БЯМ и применяем тщательно определенную стратегию фильтрации данных для обеспечения корректности меток, качества объяснений и разнообразия данных. Затем мы выполняем тонкую настройку модели на этих тщательно отобранных данных в качестве "холодного старта" и дополнительно оптимизируем ее с помощью основанного на правилах обучения с подкреплением, используя вознаграждения как за корректность прогноза, так и за качество объяснений. Результаты на 12 различных задачах показывают, что FaithLens с 8 миллиардами параметров превосходит передовые модели, такие как GPT-4.1 и o3. Кроме того, FaithLens способен генерировать высококачественные объяснения, обеспечивая уникальный баланс надежности, эффективности и производительности.

Simulstream: Инструментарий с открытым исходным кодом для оценки и демонстрации систем потокового перевода речи в текст
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

Dec 19

ByMarco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli

Потоковый перевод речи в текст (StreamST) требует генерации переводов параллельно с поступлением речевого сигнала, что накладывает строгие ограничения на задержку и требует моделей, способных балансировать между принятием решений на основе частичной информации и высоким качеством перевода. До настоящего времени исследования в этой области опирались на репозиторий SimulEval, который больше не поддерживается и не работает с системами, способными исправлять свои выходные данные. Кроме того, он был разработан для имитации обработки коротких сегментов, а не длинных аудиопотоков, и не предоставляет простого способа демонстрации систем. В качестве решения мы представляем simulstream — первую открытую платформу, предназначенную для унифицированной оценки и демонстрации систем StreamST. Разработанная для обработки длинных речевых сегментов, она поддерживает не только подходы с инкрементным декодированием, но и методы с перепереводом, позволяя сравнивать их в рамках одной платформы как по качеству, так и по задержке. Кроме того, она также предлагает интерактивный веб-интерфейс для демонстрации любой системы, созданной с помощью этого инструмента.

Memory-T1: Обучение с подкреплением для темпоральных рассуждений в многосессионных агентах
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents

Dec 23

ByYiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong

Временное рассуждение в длинных многосессионных диалогах является критически важной способностью для разговорных агентов. Однако существующие работы и наше пилотное исследование показывают, что по мере увеличения длины истории диалогов и накопления шума современные модели с длинным контекстом с трудом точно идентифицируют временно релевантную информацию, что значительно ухудшает качество рассуждений. Для решения этой проблемы мы представляем Memory-T1 — фреймворк, который изучает учитывающую время политику выбора памяти с помощью обучения с подкреплением (RL). Он использует стратегию «от грубого к точному»: сначала история диалога сокращается до набора кандидатов с использованием временных и релевантностных фильтров, после чего RL-агент выбирает точные сессии-доказательства. Обучение с подкреплением направляется многоуровневой функцией вознаграждения, оптимизирующей (i) точность ответа, (ii) обоснованность доказательств и (iii) временную согласованность. В частности, вознаграждение за временную согласованность обеспечивает плотный сигнал, оценивая соответствие временному охвату запроса как на уровне сессии (хронологическая близость), так и на уровне высказывания (хронологическая достоверность), что позволяет агенту разрешать тонкие хронологические неоднозначности. На бенчмарке Time-Dialog Memory-T1 повышает общий балл модели на 7B параметров до 67.0%, устанавливая новое состояние искусства для открытых моделей и превосходя базовую модель на 14B параметров на 10.2%. Абляционные исследования показывают, что вознаграждения за временную согласованность и обоснованность доказательств совместно обеспечивают прирост производительности в 15.0%. Более того, Memory-T1 сохраняет устойчивость до 128 тыс. токенов, где базовые модели терпят неудачу, доказывая эффективность против шума в обширных историях диалогов. Код и наборы данных общедоступны по адресу https://github.com/Elvin-Yiming-Du/Memory-T1/.

QuantiPhy: Количественный тест для оценки способностей визуально-языковых моделей к физическим рассуждениям
QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

Dec 22

ByLi Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli

Понимание физического мира является ключевым для универсальных агентов ИИ. Однако до сих пор неясно, способны ли современные модели визуального восприятия (например, большие мультимодальные языковые модели, VLMs) к количественному анализу физических свойств. Существующие оценки преимущественно основаны на вопросах и ответах по изображениям (VQA) и носят качественный характер, что даёт ограниченное представление о том, могут ли эти модели выводить кинематические величины движущихся объектов из видеонаблюдений. Чтобы решить эту проблему, мы представляем QuantiPhy — первый бенчмарк, разработанный для количественной оценки способности VLM к физическим рассуждениям. Состоящий из более чем 3,3 тыс. видеотекстовых примеров с числовыми эталонными значениями, QuantiPhy оценивает производительность VLM при определении размера, скорости и ускорения объекта в заданный момент времени, используя одно из этих свойств в качестве априорной информации. Бенчмарк стандартизирует формулировки запросов и систему оценивания для анализа числовой точности, обеспечивая справедливое сравнение моделей. Наши эксперименты с передовыми VLMs выявили устойчивый разрыв между их качественной правдоподобностью и фактической числовой корректностью. Мы также провели углубленный анализ ключевых факторов, таких как фоновый шум, контрафактические априорные данные и стратегическое составление запросов, и обнаружили, что современные VLMs в значительной степени опираются на предварительно полученные знания о мире, а не добросовестно используют предоставленные визуальные и текстовые данные в качестве ориентиров при количественном выводе кинематических свойств. QuantiPhy предлагает первую строгую и масштабируемую тестовую среду для перевода VLMs от простой вербальной правдоподобности к численно обоснованному физическому пониманию.

Активный интеллект в видеоаватарах через замкнутое моделирование мира
Active Intelligence in Video Avatars via Closed-loop World Modeling

Dec 23

ByXuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen

Современные методы генерации видеоаватаров демонстрируют высокие результаты в сохранении идентичности и согласовании движений, но лишены подлинной агентности — они не способны автономно достигать долгосрочных целей через адаптивное взаимодействие со средой. Для решения этой проблемы мы представляем L-IVA (Long-horizon Interactive Visual Avatar) — задачу и бенчмарк для оценки целенаправленного планирования в стохастических генеративных средах, а также ORCA (Online Reasoning and Cognitive Architecture) — первую архитектуру, обеспечивающую активный интеллект видеоаватаров. ORCA реализует концепцию Внутренней Модели Мира (ВММ) за счет двух ключевых инноваций: (1) замкнутого цикла OTAR (Наблюдение-Мысль-Действие-Рефлексия), который поддерживает надежное отслеживание состояния в условиях генеративной неопределенности путем постоянной проверки прогнозируемых результатов против фактических генераций, и (2) иерархической двухсистемной архитектуры, где Система 2 осуществляет стратегическое планирование с предсказанием состояний, а Система 1 транслирует абстрактные планы в точные, специфичные для модели текстовые описания действий. Формулируя управление аватаром как частично наблюдаемый марковский процесс (POMDP) и реализуя непрерывное обновление убеждений с верификацией результатов, ORCA обеспечивает автономное выполнение многошаговых задач в открытых доменах. Масштабные эксперименты показывают, что ORCA значительно превосходит разомкнутые и нерефлексивные базовые методы по показателям успешности задач и поведенческой согласованности, подтверждая эффективность нашей архитектуры, вдохновленной ВММ, для развития интеллекта видеоаватаров от пассивной анимации к активному целенаправленному поведению.

Многоязычный тематический анализ с двойными метриками надежности: сочетание каппы Коэна и семантического сходства для валидации качественных исследований
Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Dec 23

ByNilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop

Качественные исследования сталкиваются с критической проблемой надежности: традиционные методы оценки межкодировочной согласованности требуют привлечения нескольких кодировщиков-людей, являются трудоемкими и часто дают умеренную согласованность. Мы представляем многоперспективную систему валидации для тематического анализа на основе больших языковых моделей (LLM), которая сочетает ансамблевую валидацию с двойными метриками надежности: каппа Коэна (κ) для оценки межкодировочной согласованности и косинусное сходство для оценки семантической консистентности. Наша система позволяет настраивать параметры анализа (1-6 сидов, температура 0.0-2.0), поддерживает пользовательские структуры промптов с подстановкой переменных и обеспечивает извлечение консенсусных тем из данных в любом JSON-формате. В качестве доказательства концепции мы оценили три ведущие LLM (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) на расшифровке интервью о психоделической арт-терапии, проведя по шесть независимых запусков для каждой модели. Результаты показывают, что Gemini демонстрирует наивысшую надежность (κ= 0.907, косинус=95.3%), за ней следуют GPT-4o (κ= 0.853, косинус=92.6%) и Claude (κ= 0.842, косинус=92.1%). Все три модели достигают высокой согласованности (κ> 0.80), что подтверждает эффективность ансамблевого подхода с многократными запусками. Система успешно извлекает консенсусные темы по всем запускам: Gemini идентифицировала 6 консенсусных тем (согласованность 50-83%), GPT-4o — 5 тем, а Claude — 4 темы. Наша открытая реализация предоставляет исследователям прозрачные метрики надежности, гибкую конфигурацию и независимый от структуры данных механизм извлечения консенсуса, закладывая методологические основы для надежного качественного исследования с использованием искусственного интеллекта.

Токсичность впереди: Прогнозирование сбоев в коммуникации на GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub

Dec 17

ByMia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski

Токсичные взаимодействия в сообществах открытого программного обеспечения (ПО) снижают вовлеченность участников и угрожают устойчивости проектов. Для предотвращения такой токсичности до её появления необходимо четкое понимание того, как развиваются вредоносные беседы. Однако большинство упреждающих стратегий модерации являются ручными и требуют значительных временных затрат и усилий от сопровождающих сообщества. Для поддержки более масштабируемых подходов мы подготовили набор данных, содержащий 159 токсичных и 207 нетоксичных обсуждений из дискуссий на GitHub. Наш анализ показывает, что токсичность можно прогнозировать по триггерам напряженности, сдвигам в тональности и определенным паттернам общения. Мы представляем новую систему на основе больших языковых моделей (LLM) для прогнозирования схода беседы с рельсов на GitHub, использующую двухэтапный пайплайн промптов. Сначала мы генерируем сводки динамики беседы с помощью подсказки «от наименьшего к наибольшему»; затем используем эти сводки для оценки вероятности схода беседы с рельсов. Оцененная на моделях Qwen и Llama, наша стратегия LtM достигает F1-меры 0,901 и 0,852 соответственно при пороге принятия решения 0,3, превосходя установленные NLP-базисы в задаче прогнозирования схода беседы. Внешняя валидация на наборе данных из 308 обсуждений GitHub Issues (65 токсичных, 243 нетоксичных) показывает F1-меру до 0,797. Наши результаты демонстрируют эффективность структурированного промптинга LLM для раннего обнаружения схода беседы с рельсов в сообществах открытого ПО, что позволяет реализовать проактивную и объяснимую модерацию.

Обучение перефокусировке с помощью видео-диффузионных моделей
Learning to Refocus with Video Diffusion Models

Dec 22

BySaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin

Фокусировка является краеугольным камнем фотографии, однако системы автофокуса часто не могут захватить нужный объект, и пользователи нередко хотят скорректировать фокус после съемки. Мы представляем новый метод реалистичного перефокусирования после съемки с использованием видео-диффузионных моделей. Исходя из одного расфокусированного изображения, наш подход генерирует перцептивно точный фокальный стек, представленный в виде видеопоследовательности, что позволяет осуществлять интерактивную перефокусировку и открывает возможности для ряда последующих приложений. В поддержку данной работы и будущих исследований мы публикуем масштабный набор данных фокальных стеков, полученных в разнообразных реальных условиях съемки на смартфоны. Наш метод стабильно превосходит существующие подходы как по перцептивному качеству, так и по устойчивости в сложных сценариях, прокладывая путь к более продвинутым возможностям редактирования фокуса в повседневной фотографии. Код и данные доступны по адресу www.learn2refocus.github.io.