Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

BlenderFusion: Визуальное редактирование и генеративное композитирование с использованием 3D-основы
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

Jun 20, 2025

Jiacheng Chen, Ramin Mehran, Xuhui Jia, Saining Xie, Sanghyun Woo

481

Мы представляем BlenderFusion, генеративный фреймворк для визуального композитинга, который синтезирует новые сцены путем перекомпоновки объектов, камеры и фона. Он следует конвейеру слоев-редактирования-композитинга: (i) сегментация и преобразование визуальных входных данных в редактируемые 3D-сущности (слои), (ii) их редактирование в Blender с использованием 3D-ориентированного управления (редактирование) и (iii) их объединение в согласованную сцену с помощью генеративного композитора (композитинг). Наш генеративный композитор расширяет предварительно обученную диффузионную модель для параллельной обработки как исходной (source), так и отредактированной (target) сцен. Он дорабатывается на видеокадрах с использованием двух ключевых стратегий обучения: (i) маскирование исходных данных, позволяющее гибкие модификации, такие как замена фона; (ii) симулированное дрожание объектов, способствующее раздельному управлению объектами и камерой. BlenderFusion значительно превосходит предыдущие методы в задачах сложного композиционного редактирования сцен.

LLaVA-Scissor: Сжатие токенов с использованием семантически связанных компонентов для видеомоделей с большим языковым ядром
LLaVA-Scissor: Token Compression with Semantic Connected Components for Video LLMs

Jun 27, 2025

Boyuan Sun, Jiaxing Zhao, Xihan Wei, Qibin Hou

313

В данной статье мы представляем LLaVA-Scissor — стратегию сжатия токенов, не требующую обучения, разработанную для видео-мультимодальных больших языковых моделей. Предыдущие методы в основном пытаются сжимать токены на основе оценок внимания, но не способны эффективно охватить все семантические области и часто приводят к избыточности токенов. В отличие от них, мы предлагаем использовать подход Semantic Connected Components (SCC), который распределяет токены по различным семантическим областям внутри набора токенов, обеспечивая полное семантическое покрытие. В результате получается двухэтапная стратегия пространственно-временного сжатия токенов, использующая SCC как в пространственной, так и во временной областях. Эта стратегия позволяет эффективно сжимать токены, представляя всё видео набором непересекающихся семантических токенов. Мы проводим обширные оценки возможностей сжатия токенов LLaVA-Scissor на различных бенчмарках для понимания видео, включая ответы на вопросы по видео, понимание длинных видео и комплексные бенчмарки с множественным выбором. Экспериментальные результаты показывают, что предложенный LLaVA-Scissor превосходит другие методы сжатия токенов, демонстрируя превосходную производительность на различных бенчмарках для понимания видео, особенно при низких коэффициентах удержания токенов. Страница проекта: https://github.com/HumanMLLM/LLaVA-Scissor.

XVerse: Согласованное управление идентичностью и семантическими атрибутами для множества объектов через модуляцию DiT
XVerse: Consistent Multi-Subject Control of Identity and Semantic Attributes via DiT Modulation

Jun 26, 2025

Bowen Chen, Mengyi Zhao, Haomiao Sun, Li Chen, Xu Wang, Kang Du, Xinglong Wu

263

Достижение точного контроля над идентичностью объекта и семантическими атрибутами (поза, стиль, освещение) в генерации изображений из текста, особенно для нескольких объектов, часто снижает редактируемость и согласованность моделей Diffusion Transformers (DiTs). Многие подходы приводят к появлению артефактов или страдают от переплетения атрибутов. Для преодоления этих проблем мы предлагаем новую модель управляемой генерации для нескольких объектов — XVerse. Преобразуя эталонные изображения в смещения для модуляции текстового потока, специфичного для токенов, XVerse позволяет осуществлять точный и независимый контроль над конкретным объектом, не нарушая латентные представления или признаки изображения. В результате XVerse обеспечивает синтез изображений с высокой точностью и возможностью редактирования для нескольких объектов, с надежным контролем над индивидуальными характеристиками и семантическими атрибутами каждого объекта. Это достижение значительно улучшает возможности персонализированной и сложной генерации сцен.

ShotBench: Экспертный уровень понимания кинематографии в моделях обработки зрения и языка
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Jun 26, 2025

Hongbo Liu, Jingwen He, Yi Jin, Dian Zheng, Yuhao Dong, Fan Zhang, Ziqi Huang, Yinan He, Yangguang Li, Weichao Chen, Yu Qiao, Wanli Ouyang, Shengjie Zhao, Ziwei Liu

211

Кинематография, являющаяся фундаментальным визуальным языком кино, играет ключевую роль в передаче повествования, эмоций и эстетического качества. Хотя современные модели обработки визуальной и языковой информации (Vision-Language Models, VLMs) демонстрируют высокий уровень общего визуального понимания, их способность к восприятию тонкой кинематографической грамматики, заложенной в отдельных кадрах, остается малоизученной и недостаточно оцененной. Этот критический пробел ограничивает как детальное визуальное понимание, так и точность генерации видео с использованием искусственного интеллекта. Для решения этой проблемы мы представляем ShotBench — всеобъемлющий бенчмарк, специально разработанный для понимания кинематографического языка. Он включает более 3,5 тысяч экспертно аннотированных пар вопросов и ответов, основанных на изображениях и видеоклипах, тщательно отобранных из более чем 200 признанных (преимущественно номинированных на «Оскар») фильмов и охватывающих восемь ключевых аспектов кинематографии. Наша оценка 24 ведущих моделей VLMs на ShotBench выявила их существенные ограничения: даже лучшая модель демонстрирует среднюю точность менее 60%, особенно затрудняясь с детальными визуальными подсказками и сложным пространственным анализом. Для стимулирования прогресса в этой области мы создаем ShotQA — крупномасштабный мультимодальный набор данных, содержащий около 70 тысяч кинематографических пар вопросов и ответов. Используя ShotQA, мы разрабатываем ShotVL с помощью контролируемого тонкого обучения и оптимизации групповой относительной политики. ShotVL значительно превосходит все существующие открытые и проприетарные модели на ShotBench, устанавливая новый уровень производительности. Мы открываем доступ к нашим моделям, данным и коду для ускорения прогресса в этой важной области понимания и генерации кинематографического контента с использованием искусственного интеллекта.

От идеального к реальному: унифицированный и ресурсоэффективный подход к плотному предсказанию для реальных сценариев
From Ideal to Real: Unified and Data-Efficient Dense Prediction for Real-World Scenarios

Jun 25, 2025

Changliang Xia, Chengyou Jia, Zhuohang Dang, Minnan Luo

171

Задачи плотного предсказания играют важную роль в компьютерном зрении, направленные на обучение пиксельной аннотации меток для входного изображения. Несмотря на достижения в этой области, существующие методы в основном сосредоточены на идеализированных условиях, обладая ограниченной обобщаемостью для реальных сценариев и сталкиваясь с проблемой недостатка реальных данных. Для систематического изучения этой проблемы мы сначала представляем DenseWorld — эталонный набор, охватывающий широкий спектр из 25 задач плотного предсказания, соответствующих актуальным реальным приложениям, с унифицированной оценкой для всех задач. Затем мы предлагаем DenseDiT, который максимально использует визуальные априорные знания генеративных моделей для выполнения разнообразных задач плотного предсказания в реальных условиях через единую стратегию. DenseDiT сочетает механизм повторного использования параметров и два легковесных блока, которые адаптивно интегрируют контекст на разных масштабах, работая с менее чем 0,1% дополнительных параметров. Оценка на DenseWorld выявила значительное снижение производительности существующих общих и специализированных базовых методов, подчеркивая их ограниченную обобщаемость для реальных условий. В отличие от них, DenseDiT демонстрирует превосходные результаты, используя менее 0,01% обучающих данных базовых методов, что подчеркивает его практическую ценность для реального применения. Наши данные, контрольные точки и коды доступны по адресу https://xcltql666.github.io/DenseDiTProj.

Обладают ли модели "визуальный язык" внутренними моделями мира? К атомарной оценке
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation

Jun 27, 2025

Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu

161

Внутренние модели мира (World Models, WMs) позволяют агентам понимать состояние мира и предсказывать его изменения, служа основой для сложного рассуждения. Современные крупные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), такие как OpenAI o3, GPT-4o и Gemini, демонстрируют потенциал в качестве универсальных WMs. Хотя последние исследования оценили и выявили ограничения в конкретных способностях, таких как визуальное понимание, систематическая оценка фундаментальных возможностей VLMs как WMs до сих пор отсутствует. Опираясь на сравнительную психологию и когнитивную науку, мы предлагаем двухэтапную структуру, которая оценивает Восприятие (визуальное, пространственное, временное, количественное и движение) и Предсказание (механистическое моделирование, транзитивный вывод, композиционный вывод), чтобы провести атомарную оценку VLMs как WMs. Руководствуясь этой структурой, мы представляем WM-ABench — крупномасштабный бенчмарк, включающий 23 детализированных измерения оценки в 6 разнообразных симулированных средах с контролируемыми контрфактуальными симуляциями. Проведя 660 экспериментов на 15 последних коммерческих и открытых VLMs, мы обнаружили, что эти модели демонстрируют значительные ограничения в базовых способностях моделирования мира. Например, почти все модели показывают точность, близкую к случайной, при различении траекторий движения. Кроме того, им не хватает разделенного понимания — например, некоторые модели склонны считать, что синие объекты движутся быстрее, чем зеленые. Более подробные результаты и анализ выявляют существенные разрывы между VLMs и человеческим уровнем моделирования мира.

Ark: Открытый Python-ориентированный фреймворк для обучения роботов
Ark: An Open-source Python-based Framework for Robot Learning

Jun 24, 2025

Magnus Dierking, Christopher E. Mower, Sarthak Das, Huang Helong, Jiacheng Qiu, Cody Reading, Wei Chen, Huidong Liang, Huang Guowei, Jan Peters, Quan Xingyue, Jun Wang, Haitham Bou-Ammar

131

Робототехника достигла значительных успехов в области аппаратного обеспечения — от соревнований DARPA Urban и Robotics Challenges до первого турнира по кикбоксингу с участием человекоподобных роботов, — однако коммерческая автономия всё ещё отстаёт от прогресса в машинном обучении. Основным узким местом является программное обеспечение: современные стеки робототехники требуют длительного обучения, глубоких знаний C/C++, фрагментированных инструментов и сложной интеграции с аппаратным обеспечением, что резко контрастирует с Python-ориентированными, хорошо документированными экосистемами, которые способствовали развитию современного ИИ. Мы представляем ARK — открытый фреймворк для робототехники, ориентированный на Python, который призван устранить этот разрыв. ARK предлагает интерфейс среды в стиле Gym, позволяющий пользователям собирать данные, предобрабатывать их и обучать политики с использованием передовых алгоритмов обучения с подражанием (например, ACT, Diffusion Policy), при этом легко переключаясь между высокоточной симуляцией и физическими роботами. Лёгкая архитектура клиент-сервер обеспечивает сетевое взаимодействие по модели издатель-подписчик, а опциональные привязки C/C++ гарантируют производительность в реальном времени при необходимости. ARK поставляется с переиспользуемыми модулями для управления, SLAM, планирования движения, идентификации систем и визуализации, а также с поддержкой взаимодействия с ROS. Подробная документация и кейсы — от манипуляций до мобильной навигации — демонстрируют быструю разработку прототипов, лёгкую замену аппаратного обеспечения и сквозные процессы, которые по удобству сопоставимы с основными рабочими процессами машинного обучения. Объединяя практики робототехники и ИИ под общим Python-ориентированным подходом, ARK снижает барьеры для входа и ускоряет исследования и коммерческое внедрение автономных роботов.

Pangu Pro MoE: Смесь группированных экспертов для эффективной разреженности
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

May 27, 2025

Yehui Tang, Xiaosong Li, Fangcheng Liu, Wei Guo, Hang Zhou, Yaoyuan Wang, Kai Han, Xianzhi Yu, Jinpeng Li, Hui Zang, Fei Mi, Xiaojun Meng, Zhicheng Liu, Hanting Chen, Binfan Zheng, Can Chen, Youliang Yan, Ruiming Tang, Peifeng Qin, Xinghao Chen, Dacheng Tao, Yunhe Wang

122

Появление архитектуры Mixture of Experts (MoE) в крупных языковых моделях обещает низкую стоимость выполнения при значительно большем количестве параметров модели и её обучающей способности, поскольку для каждого входного токена активируется лишь небольшая часть параметров. Однако часто наблюдается, что некоторые эксперты активируются гораздо чаще других, что приводит к неэффективности системы при параллельном выполнении экспертов на разных устройствах. Поэтому мы представляем Mixture of Grouped Experts (MoGE), которая группирует экспертов во время выбора и естественным образом лучше балансирует нагрузку между экспертами, чем MoE. Она ограничивает активацию токенов равным количеством экспертов внутри каждой предопределённой группы экспертов. Когда выполнение модели распределяется на несколько устройств, этот архитектурный подход обеспечивает сбалансированную вычислительную нагрузку между устройствами, значительно повышая пропускную способность, особенно на этапе вывода. Кроме того, мы создали Pangu Pro MoE на базе Ascend NPU — разреженную модель, основанную на MoGE, с общим количеством параметров 72 миллиарда, из которых 16 миллиардов активируются для каждого токена. Конфигурация Pangu Pro MoE оптимизирована для Ascend 300I Duo и 800I A2 с помощью обширных исследований системного моделирования. Наши эксперименты показывают, что MoGE действительно приводит к лучшему балансированию нагрузки между экспертами и более эффективному выполнению как для обучения, так и для вывода модели на Ascend NPU. Производительность вывода Pangu Pro MoE достигает 1148 токенов/с на карту и может быть дополнительно увеличена до 1528 токенов/с на карту с помощью спекулятивного ускорения, превосходя сопоставимые плотные модели с 32B и 72B параметрами. Кроме того, мы достигаем отличного соотношения стоимости и производительности для вывода модели на Ascend 300I Duo. Наши исследования показывают, что Ascend NPU способны обучать Pangu Pro MoE с массовым параллелизмом, что делает её ведущей моделью в классе с общим количеством параметров менее 100B, превосходя известные открытые модели, такие как GLM-Z1-32B и Qwen3-32B.

Shape-for-Motion: Точное и согласованное редактирование видео с использованием 3D-прокси
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

Jun 27, 2025

Yuhao Liu, Tengfei Wang, Fang Liu, Zhenwei Wang, Rynson W. H. Lau

101

Последние достижения в области глубокого генеративного моделирования открыли беспрецедентные возможности для синтеза видео. Однако в реальных приложениях пользователи часто ищут инструменты, которые позволяют точно и последовательно реализовывать их творческие замыслы при редактировании. Несмотря на прогресс, достигнутый существующими методами, обеспечение детального соответствия намерениям пользователя остается открытой и сложной проблемой. В данной работе мы представляем Shape-for-Motion — новый фреймворк, который использует 3D-прокси для точного и последовательного редактирования видео. Shape-for-Motion достигает этого путем преобразования целевого объекта во входном видео в временно-согласованную сетку, то есть 3D-прокси, что позволяет выполнять редактирование непосредственно на прокси, а затем переносить изменения обратно на кадры видео. Для упрощения процесса редактирования мы разработали новую стратегию Dual-Propagation, которая позволяет пользователю выполнять изменения на 3D-сетке одного кадра, после чего эти изменения автоматически распространяются на 3D-сетки других кадров. 3D-сетки для различных кадров далее проецируются в 2D-пространство для создания отредактированных геометрии и текстур, которые служат входными данными для декомпозированной модели диффузии видео для генерации отредактированных результатов. Наш фреймворк поддерживает различные точные и физически-согласованные манипуляции на протяжении кадров видео, включая редактирование позы, вращение, масштабирование, перемещение, изменение текстуры и композицию объектов. Наш подход представляет собой важный шаг на пути к созданию высококачественных и контролируемых процессов редактирования видео. Многочисленные эксперименты демонстрируют превосходство и эффективность нашего подхода. Страница проекта: https://shapeformotion.github.io/

Оптимизация тонких предпочтений улучшает пространственное мышление в моделях визуального языка
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

Jun 26, 2025

Yifan Shen, Yuanzhe Liu, Jingyuan Zhu, Xu Cao, Xiaofeng Zhang, Yixiao He, Wenming Ye, James Matthew Rehg, Ismini Lourentzou

101

Современные модели обработки зрения и языка (Vision-Language Models, VLMs) испытывают трудности с тонким пространственным рассуждением, особенно когда требуются многошаговая логика и точное пространственное выравнивание. В данной работе мы представляем SpatialReasoner-R1, модель рассуждений, объединяющую зрение и язык, разработанную для преодоления этих ограничений. Для создания высококачественного обучающего материала для пространственного рассуждения мы разработали метод Монте-Карло дерева поиска с использованием нескольких моделей (Multi-Model Monte Carlo Tree Search, M3CTS), который генерирует разнообразные, логически согласованные траектории рассуждений с длинной цепочкой мыслей (Long Chain-of-Thought, LongCoT). Кроме того, мы предлагаем метод тонкой оптимизации прямых предпочтений (fine-grained Direct Preference Optimization, fDPO), который вводит сегментно-специфичную гранулярность предпочтений для описательного обоснования и логического рассуждения, руководствуясь пространственным механизмом вознаграждения, оценивающим кандидатные ответы на основе визуальной согласованности, пространственного обоснования и логической связности. Экспериментальные результаты показывают, что fDPO обеспечивает среднее улучшение на 4,1% по сравнению со стандартным DPO в задачах оценки пространственного качества и на 9,0% в задачах оценки пространственного количества. Модель SpatialReasoner-R1, обученная с использованием fDPO, устанавливает новый рекорд на бенчмарке SPATIALRGPT-Bench, превосходя самый сильный базовый уровень на 9,8% по средней точности, сохраняя при этом конкурентоспособные результаты в общих задачах обработки зрения и языка.

MiCo: Многокадровый контраст для усиления визуального анализа
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

Jun 27, 2025

Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao

В данной работе исследуется возможность включения цепочек рассуждений (Chain-of-Thought, CoT) для установления связей между визуальными подсказками на нескольких изображениях. Простое решение заключается в адаптации обучения с подкреплением на основе правил для моделей, объединяющих зрение и язык (Vision-Language Models, VLMs). Однако такие методы обычно полагаются на вручную подобранные пары вопросов и ответов, что может быть особенно сложным при работе с мелкими визуальными деталями и сложной логикой, охватывающей несколько изображений. Вдохновленные самообучением визуальных представлений, мы отмечаем, что изображения содержат внутренние ограничения, которые могут служить источником контроля. На основе этого наблюдения мы создаем тройки изображений, состоящие из двух аугментированных версий одного изображения и третьего, похожего, но отличного изображения. В процессе обучения модель побуждается генерировать процесс рассуждения для сравнения этих изображений (например, определить, одинаковы они или различны). Затем мы оптимизируем модель с помощью обучения с подкреплением на основе правил. Благодаря высокой визуальной схожести и наличию аугментаций модель должна обращать внимание на тонкие визуальные изменения и выполнять логические рассуждения для успешного выполнения задачи. Эксперименты показывают, что, несмотря на обучение исключительно на задачах визуального сравнения, приобретенные способности к рассуждению эффективно обобщаются на широкий спектр вопросов. Без использования каких-либо аннотированных человеком пар вопросов и ответов наш метод демонстрирует значительные улучшения на тестах для рассуждений на основе нескольких изображений и показывает высокую производительность на общих задачах компьютерного зрения.

Автоматизированный бенчмарк для скоростного выполнения LLM: Воспроизведение улучшений NanoGPT
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

Jun 27, 2025

Bingchen Zhao, Despoina Magka, Minqi Jiang, Xian Li, Roberta Raileanu, Tatiana Shavrina, Jean-Christophe Gagnon-Audet, Kelvin Niu, Shagun Sodhani, Michael Shvartsman, Andrei Lupu, Alisia Lupidi, Edan Toledo, Karen Hambardzumyan, Martin Josifoski, Thomas Foster, Lucia Cipolina-Kun, Abhishek Charnalia, Derek Dunfield, Alexander H. Miller, Oisin Mac Aodha, Jakob Foerster, Yoram Bachrach

Быстрое развитие крупных языковых моделей (LLM) имеет потенциал для содействия научному прогрессу. Ключевой способностью для достижения этой цели является возможность воспроизведения существующих работ. Чтобы оценить способность ИИ-агентов воспроизводить результаты в активной области исследований, мы представляем Automated LLM Speedrunning Benchmark, используя вклад научного сообщества в рамках NanoGPT speedrun — соревнования по обучению модели GPT-2 за минимальное время. Каждая из 19 задач speedrun предоставляет агенту скрипт обучения предыдущих рекордов, опционально дополненный одним из трех форматов подсказок, начиная от псевдокода и заканчивая описаниями, похожими на научные статьи, с улучшениями новых рекордов. Рекорды выполняются быстро по замыслу, а улучшения в speedrun охватывают разнообразные изменения на уровне кода, от высокоуровневых алгоритмических улучшений до оптимизаций с учетом аппаратного обеспечения. Эти особенности делают бенчмарк как доступным, так и реалистичным для передовой задачи улучшения обучения LLM. Мы обнаруживаем, что современные LLM с возможностями рассуждения в сочетании с передовыми структурами (scaffolds) испытывают трудности с повторной реализацией уже известных инноваций в нашем бенчмарке, даже при наличии подробных подсказок. Таким образом, наш бенчмарк предоставляет простую, не насыщенную меру способности LLM автоматизировать научное воспроизведение — необходимый (но не достаточный) навык для автономного исследовательского агента.

Пространственное ментальное моделирование на основе ограниченного обзора
Spatial Mental Modeling from Limited Views

Jun 26, 2025

Baiqiao Yin, Qineng Wang, Pingyue Zhang, Jianshu Zhang, Kangrui Wang, Zihan Wang, Jieyu Zhang, Keshigeyan Chandrasegaran, Han Liu, Ranjay Krishna, Saining Xie, Manling Li, Jiajun Wu, Li Fei-Fei

Могут ли модели, объединяющие зрение и язык (Vision Language Models, VLMs), представить полную сцену по нескольким видам, как это делают люди? Люди формируют пространственные ментальные модели — внутренние представления невидимого пространства — для рассуждений о компоновке, перспективе и движении. Наш новый бенчмарк MindCube, содержащий 21 154 вопроса по 3 268 изображениям, выявляет этот критический пробел: существующие VLMs демонстрируют близкое к случайному качество работы. Используя MindCube, мы систематически оцениваем, насколько хорошо VLMs строят устойчивые пространственные ментальные модели, представляя позиции (когнитивное картографирование), ориентации (принятие перспективы) и динамику (ментальное моделирование для "что, если" движений). Затем мы исследуем три подхода, помогающие VLMs приблизиться к пространственным ментальным моделям, включая невидимые промежуточные виды, цепочки рассуждений на естественном языке и когнитивные карты. Значительное улучшение достигается за счет синергетического подхода "карта-затем-рассуждение", который совместно обучает модель сначала генерировать когнитивную карту, а затем рассуждать на её основе. Обучая модели рассуждать над этими внутренними картами, мы повысили точность с 37,8% до 60,8% (+23,0%). Добавление обучения с подкреплением ещё больше увеличило производительность до 70,7% (+32,9%). Наше ключевое понимание заключается в том, что такое структурирование пространственных ментальных моделей — активное построение и использование внутренних структурированных пространственных представлений с гибкими процессами рассуждения — значительно улучшает понимание ненаблюдаемого пространства.

SMMILE: Экспертно-разработанный бенчмарк для мультимодального обучения в контексте медицинских данных
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

Jun 26, 2025

Melanie Rieff, Maya Varma, Ossian Rabow, Subathra Adithan, Julie Kim, Ken Chang, Hannah Lee, Nidhi Rohatgi, Christian Bluethgen, Mohamed S. Muneer, Jean-Benoit Delbrouck, Michael Moor

Мультимодальное обучение в контексте (ICL) остается недостаточно изученным, несмотря на значительный потенциал для таких областей, как медицина. Клиницисты регулярно сталкиваются с разнообразными специализированными задачами, требующими адаптации на основе ограниченного числа примеров, таких как извлечение выводов из нескольких релевантных предыдущих случаев или рассмотрение ограниченного набора дифференциальных диагнозов. Хотя мультимодальные большие языковые модели (MLLMs) продемонстрировали прогресс в медицинском визуальном вопросе-ответе (VQA), их способность обучаться мультимодальным задачам из контекста остается в значительной степени неизученной. Мы представляем SMMILE — первый экспертно-ориентированный мультимодальный бенчмарк ICL для медицинских задач. Одиннадцать медицинских экспертов разработали задачи, каждая из которых включает мультимодальный запрос и мультимодальные примеры в контексте в качестве демонстраций задачи. SMMILE охватывает 111 задач (517 триплетов вопрос-изображение-ответ), охватывающих 6 медицинских специальностей и 13 методов визуализации. Мы также представляем SMMILE++ — расширенный вариант с 1038 перестановленными задачами. Комплексная оценка 15 MLLMs показывает, что большинство моделей демонстрируют умеренную или низкую способность к мультимодальному ICL в медицинских задачах. В открытых оценках ICL обеспечивает лишь 8% среднего улучшения по сравнению с нулевым обучением на SMMILE и 9,4% на SMMILE++. Мы наблюдаем уязвимость к нерелевантным примерам в контексте: даже один шумный или нерелевантный пример может снизить производительность до 9,5%. Кроме того, порядок примеров демонстрирует склонность к недавним данным: размещение наиболее релевантного примера в конце может привести к значительному улучшению производительности до 71%. Наши результаты подчеркивают критические ограничения и предубеждения в текущих MLLMs при обучении мультимодальным медицинским задачам из контекста.

Стратегии обучения в контексте возникают рационально.
In-Context Learning Strategies Emerge Rationally

Jun 21, 2025

Daniel Wurgaft, Ekdeep Singh Lubana, Core Francisco Park, Hidenori Tanaka, Gautam Reddy, Noah D. Goodman

Недавние исследования, посвященные анализу обучения в контексте (in-context learning, ICL), выявили широкий набор стратегий, описывающих поведение моделей в различных экспериментальных условиях. Мы стремимся объединить эти результаты, задаваясь вопросом, почему модель изначально обучается этим различным стратегиям. В частности, мы начинаем с наблюдения, что при обучении на смеси задач, что является распространенным подходом в литературе, стратегии, усвоенные моделью для выполнения ICL, могут быть описаны семейством байесовских предсказателей: запоминающего предсказателя, который предполагает дискретное априорное распределение на множестве виденных задач, и обобщающего предсказателя, где априорное распределение соответствует базовому распределению задач. Принимая нормативную перспективу рационального анализа, где поведение обучающегося объясняется как оптимальная адаптация к данным с учетом вычислительных ограничений, мы разрабатываем иерархическую байесовскую модель, которая почти идеально предсказывает предсказания следующего токена в Transformer на протяжении всего обучения — без предположения о доступе к его весам. В рамках этой модели предобучение рассматривается как процесс обновления апостериорной вероятности различных стратегий, а поведение на этапе вывода — как взвешенное по апостериорной вероятности среднее предсказаний этих стратегий. Наша модель опирается на общие предположения о динамике обучения нейронных сетей, которые явно выражают компромисс между ошибкой и сложностью среди кандидатных стратегий: помимо того, насколько хорошо стратегия объясняет данные, предпочтение модели к реализации стратегии определяется ее сложностью. Это помогает объяснить известные феномены ICL, одновременно предлагая новые предсказания: например, мы демонстрируем суперлинейный тренд во временной шкале перехода от обобщения к запоминанию по мере увеличения разнообразия задач. В целом, наша работа продвигает объяснительный и предсказательный подход к ICL, основанный на компромиссах между ошибкой стратегии и ее сложностью.

Gazal-R1: Достижение передовых результатов в медицинском рассуждении с помощью двухэтапного обучения с эффективным использованием параметров
Gazal-R1: Achieving State-of-the-Art Medical Reasoning with Parameter-Efficient Two-Stage Training

Jun 18, 2025

Ahmed M. Adly, Mostafa Samy, Amr Fawzy

Мы представляем Gazal-R1, языковую модель с 32 миллиардами параметров, которая демонстрирует наилучшие результаты в области медицинского мышления, предоставляя прозрачные пошаговые объяснения для принятия клинических решений. Построенная на основе Qwen3 32B, наша модель показывает, что стратегическое обучение позволяет моделям среднего размера превосходить значительно более крупные аналоги в специализированных областях. Мы разработали инновационный двухэтапный процесс обучения: сначала, контролируемое тонкое обучение на тщательно отобранном наборе данных из 107 033 синтетических примеров медицинского мышления, которое обучает структурированному клиническому мышлению, усиленному передовыми параметрически эффективными методами, включая Weight-Decomposed Low-Rank Adaptation (DoRA) и Rank-Stabilized LoRA (rsLoRA); затем, обучение с подкреплением с использованием Group Relative Policy Optimization (GRPO) с многоуровневой системой вознаграждений, которая улучшает точность, соблюдение формата и качество рассуждений. Gazal-R1 демонстрирует выдающиеся результаты на медицинских тестах, достигая 87,1% на MedQA, 81,6% на MMLU Pro (Medical) и 79,6% на PubMedQA, превосходя модели, которые в 12 раз крупнее. Помимо сильных эмпирических результатов, эта работа предоставляет детальные инсайты о проблемах обучения моделей, способных к рассуждениям в специализированных областях, включая вопросы с манипуляцией вознаграждениями, нестабильностью обучения и фундаментальное противоречие между точным воспроизведением фактов и детальным рассуждением. Наша методология предлагает воспроизводимую структуру для разработки высокопроизводительных, специализированных языковых моделей, которые балансируют производительность, эффективность и объяснимость.

Технический отчет Jan-nano
Jan-nano Technical Report

Jun 28, 2025

Alan Dao, Dinh Bach Vu

Большинство языковых моделей сталкиваются с фундаментальным компромиссом, где мощные возможности требуют значительных вычислительных ресурсов. Мы разрушаем это ограничение с помощью Jan-nano, языковой модели с 4 миллиардами параметров, которая переопределяет эффективность благодаря радикальной специализации: вместо того чтобы пытаться знать всё, она овладевает искусством мгновенного поиска информации. Настроенная на основе Qwen3-4B с использованием нашей инновационной многоэтапной системы RLVR, которая полностью устраняет зависимость от обучения предсказания следующего токена (SFT), Jan-nano достигает 83,2% на бенчмарке SimpleQA с интеграцией MCP, работая на потребительском оборудовании. С длиной контекста в 128 тысяч токенов Jan-nano доказывает, что интеллект заключается не в масштабе, а в стратегии.

Обучение согласованности шума: естественный подход для одношагового генератора в изучении дополнительных управлений
Noise Consistency Training: A Native Approach for One-Step Generator in Learning Additional Controls

Jun 24, 2025

Yihong Luo, Shuchen Xue, Tianyang Hu, Jing Tang

Стремление к созданию эффективного и управляемого высококачественного контента остается ключевой задачей в области генерации контента с использованием искусственного интеллекта (AIGC). Хотя одношаговые генераторы, основанные на методах дистилляции диффузии, обеспечивают превосходное качество генерации и вычислительную эффективность, их адаптация к новым управляющим условиям — таким как структурные ограничения, семантические указания или внешние входные данные — представляет собой значительную проблему. Традиционные подходы часто требуют дорогостоящих вычислительных модификаций базовой модели и последующей дистилляции диффузии. В данной статье представлен метод Noise Consistency Training (NCT), новый и легковесный подход, который позволяет напрямую интегрировать новые управляющие сигналы в предварительно обученные одношаговые генераторы без необходимости доступа к исходным обучающим изображениям или переобучения базовой модели диффузии. NCT работает путем введения адаптерного модуля и использования функции потерь согласованности шума в пространстве шума генератора. Эта функция потерь согласует поведение адаптированной модели при генерации для шумов, которые условно зависят в различной степени, неявно направляя модель на соблюдение новых управляющих условий. Теоретически эту цель обучения можно интерпретировать как минимизацию распределительного расстояния между адаптированным генератором и условным распределением, индуцированным новыми условиями. NCT является модульным, эффективным по данным и легко внедряемым, полагаясь только на предварительно обученный одношаговый генератор и модель управляющего сигнала. Многочисленные эксперименты демонстрируют, что NCT достигает передовых результатов в управляемой генерации за один прямой проход, превосходя существующие многошаговые и основанные на дистилляции методы как по качеству генерации, так и по вычислительной эффективности. Код доступен по адресу https://github.com/Luo-Yihong/NCT.

Confucius3-Math: Легковесная высокопроизводительная языковая модель для логических рассуждений в области изучения математики в китайских школах (K-12)
Confucius3-Math: A Lightweight High-Performance Reasoning LLM for Chinese K-12 Mathematics Learning

Jun 23, 2025

Lixin Wu, Na Cai, Qiao Cheng, Jiachen Wang, Yitao Duan

Мы представляем Confucius3-Math — открытую языковую модель с 14 миллиардами параметров, которая (1) эффективно работает на одном потребительском графическом процессоре; (2) демонстрирует наилучшие результаты (SOTA) на широком спектре задач математического рассуждения, превосходя многие модели значительно большего размера. В рамках нашей миссии по улучшению образования и распространения знаний с помощью ИИ, Confucius3-Math специально ориентирована на изучение математики китайскими школьниками и преподавателями K-12. Модель создана с использованием пост-обучения на основе масштабного обучения с подкреплением (RL) и соответствует национальной учебной программе, превосходно справляясь с решением типичных задач китайской школьной математики K-12 при низких затратах. В этом отчете мы делимся нашим подходом к разработке, трудностями, с которыми столкнулись, и методами, которые разработали для их преодоления. В частности, мы представляем три технических новшества: Целевая регуляризация энтропии, Восстановление недавних образцов и Взвешивание сложности для конкретной политики. Эти инновации включают новую регуляризацию энтропии, оригинальную политику планирования данных и улучшенный оценщик группового относительного преимущества. В совокупности они значительно стабилизируют обучение с подкреплением, повышают эффективность использования данных и улучшают производительность. Наша работа демонстрирует возможность создания мощных моделей рассуждений в конкретной области при низких затратах. Мы открываем исходный код модели и её реализации по адресу https://github.com/netease-youdao/Confucius3-Math.

Прогнозирование производительности крупных систем с помощью текстовой регрессии
Performance Prediction for Large Systems via Text-to-Text Regression

Jun 26, 2025

Yash Akhauri, Bryan Lewandowski, Cheng-Hsi Lin, Adrian N. Reyes, Grant C. Forbes, Arissa Wongpanich, Bangding Yang, Mohamed S. Abdelfattah, Sagi Perel, Xingyou Song

Во многих отраслях прогнозирование метрических показателей крупных систем является фундаментальной задачей, которая в основном решается с помощью традиционной табличной регрессии. Однако такие методы сталкиваются с трудностями при работе со сложными системными данными, такими как конфигурационные файлы или системные логи, где разработка признаков часто оказывается невозможной. Мы предлагаем текстовую регрессию как универсальную и масштабируемую альтернативу. Для прогнозирования эффективности использования ресурсов в Borg, масштабной системе планирования вычислительных кластеров Google, модель с 60 миллионами параметров, обученная с нуля, достигает почти идеального коэффициента ранговой корреляции 0.99 (в среднем 0.9) для всего парка и в 100 раз меньшей среднеквадратичной ошибки по сравнению с табличными подходами. Модель также легко адаптируется к новым задачам всего на 500 примерах с малым количеством данных и точно воспроизводит плотности сложных распределений результатов. Абляционные исследования подчеркивают важность использования кодировщиков, увеличения длины последовательностей и встроенной оценки неопределенности модели. Эти результаты открывают путь к созданию универсальных симуляторов реальных исходов.

GPAS: Ускорение сходимости предварительного обучения больших языковых моделей за счет масштабирования активаций с сохранением градиента
GPAS: Accelerating Convergence of LLM Pretraining via Gradient-Preserving Activation Scaling

Jun 27, 2025

Tianhao Chen, Xin Xu, Zijing Liu, Pengxiang Li, Xinyuan Song, Ajay Kumar Jaiswal, Fan Zhang, Jishan Hu, Yang Wang, Hao Chen, Shizhe Diao, Shiwei Liu, Yu Li, Yin Lu, Can Yang

Современные крупные языковые модели, такие как серии LLaMA, Qwen и DeepSeek, преимущественно используют архитектуру Transformer с Pre-LayerNorm (Pre-LN). Хотя Pre-LN демонстрирует стабильность в процессе предварительного обучения и масштабируемость до больших размеров моделей, она страдает от экспоненциального роста дисперсии активаций между слоями, что приводит к доминированию остаточного пути над выходами подуровней и ограничивает обучаемость более глубоких слоев. Для решения этой проблемы мы предлагаем Gradient-Preserving Activation Scaling (GPAS) — простую технику, которая может использоваться в сочетании с существующими подходами. GPAS работает за счет уменьшения масштаба промежуточных активаций при сохранении их градиентов неизменными. Это позволяет сохранить информацию в активациях и избежать проблемы исчезновения градиентов, связанной с уменьшением их масштаба. Многочисленные эксперименты на моделях различных размеров от 71 млн до 1 млрд параметров показывают, что GPAS обеспечивает стабильное улучшение производительности. Помимо улучшения Pre-LN Transformers, GPAS также демонстрирует потенциал в усовершенствовании альтернативных архитектур, таких как Sandwich-LN и DeepNorm, что подчеркивает его универсальность и перспективы для улучшения динамики обучения в широком спектре сценариев.

RetFiner: Схема уточнения на основе зрения и языка для базовых моделей анализа сетчатки
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models

Jun 27, 2025

Ronald Fecso, José Morano, Ursula Schmidt-Erfurth, Hrvoje Bogunović

Развитие методов визуализации, таких как оптическая когерентная томография (ОКТ), и прогресс в области глубокого обучения (DL) позволили клиницистам и исследователям упростить стадирование заболеваний сетчатки. Одним из популярных подходов в DL является самообучение (SSL), при котором модели обучаются на больших объемах немаркированных данных, избегая дорогостоящей аннотации. SSL способствовал разработке базовых моделей (FMs) — крупных моделей, которые могут быть использованы для решения различных задач. Однако существующие FMs для ОКТ, обученные исключительно на изображениях, демонстрируют недостаточное и неполное семантическое понимание изображений, что подтверждается их производительностью на задачах (особенно сложных), и, следовательно, требуют контролируемой дообучки (что может быть неосуществимо) для лучшей адаптации к конкретным приложениям и популяциям. Для решения этой проблемы мы предлагаем RetFiner — схему SSL-уточнения на основе визуально-текстовых данных, которая улучшает представления существующих FMs и позволяет их эффективную и прямую адаптацию к конкретным популяциям для повышения производительности на задачах. Наш метод использует разнообразные обучающие цели, которые учитывают богатый сигнал надзора, содержащийся в текстовых данных. Мы протестировали RetFiner на базовых моделях для сетчатки RETFound, UrFound и VisionFM, показав значительное улучшение производительности при линейном зондировании на семи разнообразных задачах классификации ОКТ, с увеличением среднего показателя на 5,8, 3,9 и 2,1 процентных пункта по сравнению с их базовыми значениями соответственно. Наш код и веса модели доступны по адресу https://github.com/ronnief1/RetFiner.

Глобальное и локальное обучение логическому следствию для изображений природного мира
Global and Local Entailment Learning for Natural World Imagery

Jun 26, 2025

Srikumar Sastry, Aayush Dhakal, Eric Xing, Subash Khanal, Nathan Jacobs

Изучение иерархической структуры данных в моделях, объединяющих зрение и язык, представляет собой значительную проблему. Предыдущие работы пытались решить эту задачу с помощью обучения на основе импликации. Однако эти подходы не учитывают явно транзитивную природу импликации, которая устанавливает связь между порядком и семантикой в пространстве представлений. В данной работе мы представляем Radial Cross-Modal Embeddings (RCME) — фреймворк, который позволяет явно моделировать транзитивную импликацию. Наш предложенный фреймворк оптимизирует частичный порядок концепций в моделях, объединяющих зрение и язык. Используя этот фреймворк, мы разрабатываем иерархическую базовую модель для задач, связанных с зрением и языком, способную представлять иерархию в Древе Жизни. Наши эксперименты по иерархической классификации видов и иерархическому поиску демонстрируют улучшенную производительность наших моделей по сравнению с современными аналогами. Наш код и модели доступны по адресу https://vishu26.github.io/RCME/index.html.

Адаптивное моделирование доменов с использованием языковых моделей: Многоагентный подход к планированию задач
Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning

Jun 24, 2025

Harisankar Babu, Philipp Schillinger, Tamim Asfour

Мы представляем TAPAS (Task-based Adaptation and Planning using AgentS) — многоагентную платформу, которая интегрирует большие языковые модели (LLM) с символическим планированием для решения сложных задач без необходимости ручного определения моделей среды. TAPAS использует специализированных агентов на основе LLM, которые совместно генерируют и адаптируют модели доменов, начальные состояния и спецификации целей по мере необходимости с помощью структурированных механизмов вызова инструментов. Благодаря такому инструментальному взаимодействию, агенты нижнего уровня могут запрашивать изменения у агентов верхнего уровня, что позволяет адаптироваться к новым атрибутам и ограничениям без ручного переопределения домена. Агент выполнения в стиле ReAct (Reason+Act), дополненный переводом планов на естественный язык, устраняет разрыв между динамически генерируемыми планами и реальными возможностями роботов. TAPAS демонстрирует высокую производительность в эталонных доменах планирования и в симулированной среде VirtualHome, моделирующей реальный мир.

Дробное рассуждение с использованием латентных управляющих векторов улучшает время вывода и вычислений
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute

Jun 18, 2025

Sheng Liu, Tianlang Chen, Pan Lu, Haotian Ye, Yizheng Chen, Lei Xing, James Zou

Вычислительные ресурсы на этапе тестирования стали мощной парадигмой для повышения производительности больших языковых моделей (LLM), где генерация нескольких выходных данных или уточнение отдельных цепочек могут значительно повысить точность ответов. Однако существующие методы, такие как Best-of-N, мажоритарное голосование и саморефлексия, обычно применяют рассуждения единообразно для всех входных данных, игнорируя тот факт, что разные задачи могут требовать различной глубины рассуждений. В данной работе мы предлагаем Fractional Reasoning (Дробное Рассуждение) — не требующий обучения и независимый от модели фреймворк, который обеспечивает непрерывный контроль над интенсивностью рассуждений на этапе вывода, выходя за рамки ограничений фиксированных инструктивных подсказок. Наш метод работает путем извлечения латентного вектора управления, связанного с более глубокими рассуждениями, и его повторного применения с настраиваемым коэффициентом масштабирования, что позволяет модели адаптировать процесс рассуждений к сложности каждого входного запроса. Это поддерживает два ключевых режима масштабирования на этапе тестирования: (1) улучшение качества выходных данных в стратегиях, основанных на широте (например, Best-of-N, мажоритарное голосование), и (2) повышение корректности отдельных цепочек рассуждений в стратегиях, основанных на глубине (например, саморефлексия). Эксперименты на наборах данных GSM8K, MATH500 и GPQA демонстрируют, что Fractional Reasoning стабильно улучшает производительность в разнообразных задачах рассуждений и моделях.

Ежедневные статьи

BlenderFusion: Визуальное редактирование и генеративное композитирование с использованием 3D-основы
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

ShotBench: Экспертный уровень понимания кинематографии в моделях обработки зрения и языка
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Обладают ли модели "визуальный язык" внутренними моделями мира? К атомарной оценке
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation

Ark: Открытый Python-ориентированный фреймворк для обучения роботов
Ark: An Open-source Python-based Framework for Robot Learning

Pangu Pro MoE: Смесь группированных экспертов для эффективной разреженности
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

Shape-for-Motion: Точное и согласованное редактирование видео с использованием 3D-прокси
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

Оптимизация тонких предпочтений улучшает пространственное мышление в моделях визуального языка
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

MiCo: Многокадровый контраст для усиления визуального анализа
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

Автоматизированный бенчмарк для скоростного выполнения LLM: Воспроизведение улучшений NanoGPT
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

Пространственное ментальное моделирование на основе ограниченного обзора
Spatial Mental Modeling from Limited Views

SMMILE: Экспертно-разработанный бенчмарк для мультимодального обучения в контексте медицинских данных
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

Стратегии обучения в контексте возникают рационально.
In-Context Learning Strategies Emerge Rationally

Технический отчет Jan-nano
Jan-nano Technical Report

Прогнозирование производительности крупных систем с помощью текстовой регрессии
Performance Prediction for Large Systems via Text-to-Text Regression

RetFiner: Схема уточнения на основе зрения и языка для базовых моделей анализа сетчатки
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models

Глобальное и локальное обучение логическому следствию для изображений природного мира
Global and Local Entailment Learning for Natural World Imagery

Адаптивное моделирование доменов с использованием языковых моделей: Многоагентный подход к планированию задач
Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning

Дробное рассуждение с использованием латентных управляющих векторов улучшает время вывода и вычислений
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute

Support

Support

Ежедневные статьи

BlenderFusion: Визуальное редактирование и генеративное композитирование с использованием 3D-основы
BlenderFusion: 3D-Grounded Visual Editing and Generative Compositing

ShotBench: Экспертный уровень понимания кинематографии в моделях обработки зрения и языка
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models

Обладают ли модели "визуальный язык" внутренними моделями мира? К атомарной оценке
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation

Ark: Открытый Python-ориентированный фреймворк для обучения роботов
Ark: An Open-source Python-based Framework for Robot Learning

Pangu Pro MoE: Смесь группированных экспертов для эффективной разреженности
Pangu Pro MoE: Mixture of Grouped Experts for Efficient Sparsity

Shape-for-Motion: Точное и согласованное редактирование видео с использованием 3D-прокси
Shape-for-Motion: Precise and Consistent Video Editing with 3D Proxy

Оптимизация тонких предпочтений улучшает пространственное мышление в моделях визуального языка
Fine-Grained Preference Optimization Improves Spatial Reasoning in VLMs

MiCo: Многокадровый контраст для усиления визуального анализа
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

Автоматизированный бенчмарк для скоростного выполнения LLM: Воспроизведение улучшений NanoGPT
The Automated LLM Speedrunning Benchmark: Reproducing NanoGPT Improvements

Пространственное ментальное моделирование на основе ограниченного обзора
Spatial Mental Modeling from Limited Views

SMMILE: Экспертно-разработанный бенчмарк для мультимодального обучения в контексте медицинских данных
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning

Стратегии обучения в контексте возникают рационально.
In-Context Learning Strategies Emerge Rationally

Технический отчет Jan-nano
Jan-nano Technical Report

Прогнозирование производительности крупных систем с помощью текстовой регрессии
Performance Prediction for Large Systems via Text-to-Text Regression

RetFiner: Схема уточнения на основе зрения и языка для базовых моделей анализа сетчатки
RetFiner: A Vision-Language Refinement Scheme for Retinal Foundation Models

Глобальное и локальное обучение логическому следствию для изображений природного мира
Global and Local Entailment Learning for Natural World Imagery

Адаптивное моделирование доменов с использованием языковых моделей: Многоагентный подход к планированию задач
Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning

Дробное рассуждение с использованием латентных управляющих векторов улучшает время вывода и вычислений
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute