Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем InternVL 3.5 — новое семейство открытых мультимодальных моделей, которое значительно улучшает универсальность, способность к рассуждениям и эффективность вывода в рамках серии InternVL. Ключевым нововведением является фреймворк Cascade Reinforcement Learning (Cascade RL), который улучшает способность к рассуждениям за счет двухэтапного процесса: оффлайн-обучение с подкреплением для стабильной сходимости и онлайн-обучение с подкреплением для точной настройки. Эта стратегия обучения от грубого к детальному приводит к значительному улучшению результатов на задачах, требующих рассуждений, таких как MMMU и MathVista. Для оптимизации эффективности мы предлагаем Visual Resolution Router (ViR), который динамически регулирует разрешение визуальных токенов без ущерба для производительности. В сочетании с ViR наша стратегия Decoupled Vision-Language Deployment (DvD) разделяет визуальный кодировщик и языковую модель на разных GPU, эффективно балансируя вычислительную нагрузку. Эти вклады в совокупности позволяют InternVL 3.5 достичь улучшения общей производительности в задачах рассуждений на +16,0% и ускорения вывода в 4,05 раза по сравнению с предшественником, т.е. InternVL 3. Кроме того, InternVL 3.5 поддерживает новые возможности, такие как взаимодействие с графическим интерфейсом и агентные функции. Примечательно, что наша крупнейшая модель, т.е. InternVL 3.5-241B-A28B, достигает передовых результатов среди открытых мультимодальных языковых моделей (MLLM) в общих мультимодальных задачах, задачах рассуждений, текстовых и агентных задачах, сокращая разрыв в производительности с ведущими коммерческими моделями, такими как GPT-5. Все модели и код публично доступны.
Несмотря на значительные успехи современных авторегрессивных моделей в генерации изображений из текста (T2I), их способность обрабатывать многоатрибутные и неоднозначные запросы остается ограниченной. Для решения этих проблем в существующих работах применялся метод цепочки рассуждений (CoT) для обеспечения поэтапного визуального синтеза, а также использовалось обучение с подкреплением (RL) для улучшения способности к рассуждению. Однако большинство моделей предоставляют сигналы вознаграждения только на завершающем этапе генерации. Такое монолитное финальное руководство затрудняет определение того, какие этапы положительно влияют на конечный результат, и может приводить к субоптимальным стратегиям. Для решения этой проблемы мы предлагаем парадигму визуальной цепочки руководства (Visual-CoG), состоящую из трех этапов: семантического рассуждения, уточнения процесса и оценки результата, с поэтапными вознаграждениями, обеспечивающими оперативное руководство на протяжении всего процесса генерации изображений. Мы также создали эталонный тест визуального познания VisCog-Bench, который включает четыре подзадачи для оценки эффективности семантического рассуждения. Комплексные оценки на GenEval, T2I-CompBench и предложенном VisCog-Bench показывают улучшения на 15%, 5% и 19% соответственно, демонстрируя превосходную производительность предложенной Visual-CoG. Все ресурсы будут опубликованы в ближайшее время.
Методы генерации 3D-моделей из текста значительно продвинулись благодаря использованию предобученных 2D диффузионных моделей, что позволяет получать высококачественные и согласованные 3D-результаты. Однако они часто не справляются с созданием объектов, выходящих за пределы обучающей области (out-of-domain, OOD) или редких концепций, что приводит к несогласованным или неточным результатам. Для решения этой проблемы мы предлагаем MV-RAG — новый подход к генерации 3D-моделей из текста, который сначала извлекает релевантные 2D-изображения из обширной базы данных реальных изображений, а затем использует их для синтеза согласованных и точных многовидовых выходных данных с помощью многовидовой диффузионной модели. Обучение такой модели, основанной на извлеченных данных, достигается за счет новой гибридной стратегии, объединяющей структурированные многовидовые данные и разнообразные коллекции 2D-изображений. Это включает обучение на многовидовых данных с использованием дополненных видов для моделирования вариативности извлечения с целью реконструкции для конкретных видов, а также обучение на наборах извлеченных реальных 2D-изображений с использованием уникальной задачи предсказания исключенного вида: модель предсказывает исключенный вид на основе других видов, чтобы вывести 3D-согласованность из 2D-данных. Для проведения строгой оценки на OOD-данных мы представляем новую коллекцию сложных OOD-запросов. Эксперименты с современными методами генерации 3D-моделей из текста, изображений и персонализации показывают, что наш подход значительно улучшает согласованность 3D-моделей, фотореалистичность и соответствие тексту для OOD/редких концепций, сохраняя при этом конкурентоспособные результаты на стандартных тестах.
Мы представляем T2I-ReasonBench — эталонный набор данных для оценки способностей к рассуждению в моделях преобразования текста в изображение (T2I). Он включает четыре измерения: интерпретация идиом, проектирование текстовых изображений, рассуждение на основе сущностей и научное рассуждение. Мы предлагаем двухэтапный протокол оценки для проверки точности рассуждений и качества изображений. Мы тестируем различные модели генерации T2I и предоставляем всесторонний анализ их производительности.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют впечатляющие результаты в понимании визуального контента с использованием языковых инструкций, преобразуя визуальные данные в визуальные токены. Однако избыточность визуальных токенов приводит к снижению эффективности вывода в VLMs. Хотя было предложено множество алгоритмов для сокращения количества визуальных токенов, большинство из них используют только одномодальную информацию (т.е. визуальную или текстовую) для их отбора, игнорируя присущую задачам, связанным с зрением и языком, мультимодальность. Кроме того, отсутствует универсальный критерий, который можно было бы применять к различным модальностям. Чтобы устранить это ограничение, в данной работе мы предлагаем использовать как визуальные, так и текстовые токены для выбора информативных визуальных токенов на основе критерия покрытия. Сначала мы формулируем задачу выбора подмножества как задачу максимального покрытия. Затем подмножество визуальных токенов оптимизируется для одновременного покрытия текстовых токенов и исходного набора визуальных токенов. Наконец, агент VLM может быть использован для дальнейшего повышения качества текстовых токенов, которые направляют процесс отбора визуальных данных. Предложенный метод MMTok был всесторонне протестирован на эталонных наборах данных с использованием различных VLMs. Сравнение показывает, что визуальная и текстовая информация дополняют друг друга, а объединение мультимодальной информации позволяет значительно превзойти одномодальные базовые подходы. Более того, при использовании критерия максимального покрытия на наборе данных POPE наш метод обеспечивает ускорение в 1,87 раза, сохраняя при этом 98,7% исходной производительности на модели LLaVA-NeXT-13B. Кроме того, даже при использовании всего четырех визуальных токенов метод сохраняет 87,7% исходной производительности на модели LLaVA-1.5-7B. Эти результаты подчеркивают эффективность использования критерия покрытия при выборе токенов.
Последние достижения в области больших языковых моделей (LLM) подчеркивают потенциал обучения с подкреплением (RL) для развития способностей к рассуждению. Несмотря на обнадеживающие результаты, сохраняется фундаментальная дилемма: улучшение RL зависит от обучения на высококачественных образцах, однако поиск таких образцов ограничен внутренними ограничениями LLM. Это создает нежелательный цикл, в котором то, что невозможно исследовать, невозможно и изучить. В данной работе мы предлагаем Rubric-Scaffolded Reinforcement Learning (RuscaRL), новый фреймворк инструкционного сопровождения, предназначенный для преодоления узких мест в исследовании для общего рассуждения LLM. В частности, RuscaRL вводит чеклисты в качестве (1) явного сопровождения для исследования в процессе генерации ответов, где различные чеклисты предоставляются как внешние указания в рамках инструкций задачи для направления разнообразных высококачественных ответов. Это сопровождение постепенно ослабляется со временем, побуждая модель усваивать базовые паттерны рассуждения; (2) проверяемых наград для использования в процессе обучения модели, где мы можем получить надежные оценки LLM-as-a-Judge, используя чеклисты в качестве эталонов, что позволяет эффективно применять RL для задач общего рассуждения. Многочисленные эксперименты демонстрируют превосходство предложенного RuscaRL на различных бенчмарках, эффективно расширяя границы рассуждения при оценке best-of-N. В частности, RuscaRL значительно улучшает показатели Qwen-2.5-7B-Instruct с 23.6 до 50.3 на HealthBench-500, превосходя GPT-4.1. Более того, наша доработанная версия на Qwen3-30B-A3B-Instruct достигает 61.1 на HealthBench-500, опережая ведущие LLM, включая OpenAI-o3.
Способность к рассуждениям является ключевой характеристикой больших языковых моделей, однако понимание того, как они обучаются и выполняют многошаговые рассуждения, остается открытой проблемой. В данном исследовании мы изучаем, как различные архитектуры и методы обучения влияют на способность моделей к многошаговым рассуждениям в рамках клеточных автоматов. Обучая модели на последовательностях состояний, сгенерированных с использованием случайных булевых функций для случайных начальных условий, чтобы исключить запоминание, мы показываем, что большинство нейронных архитектур способны абстрагировать лежащие в основе правила. Хотя модели достигают высокой точности в предсказании следующего состояния, их производительность резко снижается, если требуется многошаговое рассуждение. Мы подтверждаем, что увеличение глубины модели играет ключевую роль для последовательных вычислений. Мы демонстрируем, что расширение эффективной глубины модели за счет рекуррентности, памяти и масштабирования вычислений во время тестирования существенно улучшает способность к рассуждениям.
Мы исследуем, почему рассуждение с использованием инструментов (Tool-Integrated Reasoning, TIR) повышает возможности больших языковых моделей (LLM). Хотя LLM, интегрированные с такими инструментами, как интерпретаторы кода на Python, демонстрируют значительный потенциал, до сих пор отсутствовала теоретическая основа, объясняющая, почему этот подход эффективен. В данной работе представлено первое формальное доказательство того, что TIR принципиально расширяет возможности LLM. Мы показываем, что инструменты позволяют строго расширить эмпирическую и выполнимую поддержку модели, преодолевая ограничения чисто текстовых моделей за счет включения стратегий решения задач, которые в противном случае были бы невозможны или чрезмерно сложны. Чтобы направлять поведение модели без ущерба для стабильности обучения и производительности, мы также представляем новый алгоритм — Оптимизацию политики с формированием преимущества (Advantage Shaping Policy Optimization, ASPO), который напрямую модифицирует функцию преимущества для управления поведением политики. Мы проводим всесторонние эксперименты на сложных математических задачах, используя интерпретатор Python в качестве внешнего инструмента. Наши результаты показывают, что модель с TIR значительно превосходит свою чисто текстовую версию по метрике pass@k. Важно отметить, что это преимущество не ограничивается вычислительно сложными задачами, но распространяется и на те, которые требуют значительного абстрактного мышления. Мы также выявляем возникающие когнитивные паттерны, иллюстрирующие, как модели учатся мыслить с помощью инструментов. Наконец, мы отмечаем улучшенное поведение в использовании инструментов с ранним вызовом кода и более интерактивными шагами при применении ASPO. В целом, наша работа предоставляет первое принципиальное объяснение успеха TIR, смещая фокус с самого факта работы инструментов на то, почему и как они обеспечивают более мощное рассуждение.
Представляем Hermes 4 — семейство гибридных моделей рассуждений, сочетающих структурированное многошаговое мышление с широкими способностями к выполнению инструкций. Мы описываем трудности, с которыми столкнулись в процессе сбора данных, их синтеза, обучения и оценки, а также излагаем решения, применённые для масштабного преодоления этих проблем. Проведено всестороннее тестирование на задачах математического рассуждения, программирования, знаний, понимания и соответствия, с представлением как количественных показателей производительности, так и качественного анализа поведения. В поддержку открытых исследований все веса моделей опубликованы в открытом доступе по адресу https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728.
Многоагентные системы, построенные на основе больших языковых моделей (LLM), продемонстрировали впечатляющие возможности в решении сложных композиционных задач. В данной работе мы применяем этот подход к задаче генерации постеров из научных статей — практическому, но трудоемкому процессу, с которым сталкиваются исследователи при подготовке к конференциям. Хотя современные методы пытаются автоматизировать эту задачу, большинство из них игнорируют ключевые принципы дизайна и эстетики, что приводит к постерам, требующим значительной ручной доработки. Чтобы устранить эти ограничения, мы предлагаем PosterGen — многоагентную систему, которая имитирует рабочий процесс профессиональных дизайнеров постеров. Она состоит из четырех специализированных агентов, работающих совместно: (1) агенты Parser и Curator извлекают содержание из статьи и организуют сценарий; (2) агент Layout распределяет контент в логичную пространственную структуру; (3) агенты Stylist применяют элементы визуального дизайна, такие как цвет и типографика; и (4) Renderer создает финальный постер. Вместе эти агенты производят постеры, которые одновременно семантически обоснованы и визуально привлекательны. Для оценки качества дизайна мы вводим критерий на основе модели "визуальный язык" (VLM), который измеряет баланс компоновки, читаемость и эстетическую согласованность. Экспериментальные результаты показывают, что PosterGen стабильно соответствует по точности передачи содержания и значительно превосходит существующие методы в визуальном дизайне, создавая постеры, готовые к презентации с минимальной ручной доработкой.
Бенчмарки определяют прогресс в исследованиях ИИ. Полезный бенчмарк должен быть одновременно сложным и реалистичным: задачи должны бросать вызов передовым моделям, а также отражать реальное использование. Однако текущие парадигмы сталкиваются с противоречием между сложностью и реалистичностью: бенчмарки в стиле экзаменов часто искусственно усложняются, имея ограниченную ценность в реальном мире, в то время как бенчмарки, основанные на реальном взаимодействии с пользователями, часто смещаются в сторону простых, высокочастотных задач. В этой работе мы исследуем принципиально иную парадигму: оценку моделей на нерешенных вопросах. Вместо статического бенчмарка, оцениваемого один раз, мы собираем нерешенные вопросы и асинхронно оцениваем модели с течением времени с использованием валидатор-ассистированного скрининга и проверки сообществом. Мы представляем UQ — тестовую базу из 500 сложных и разнообразных вопросов, взятых с Stack Exchange, охватывающих темы от теории компьютерных наук и математики до научной фантастики и истории, исследующих такие способности, как рассуждение, фактическая точность и поиск информации. UQ сложен и реалистичен по своей сути: нерешенные вопросы часто трудны и естественным образом возникают, когда люди ищут ответы, поэтому их решение приносит прямую пользу в реальном мире. Наш вклад трехчастен: (1) UQ-Dataset и его процесс сбора, сочетающий правила фильтрации, судей на основе LLM и человеческую проверку для обеспечения качества вопросов (например, четкость и сложность); (2) UQ-Validators, стратегии составной валидации, которые используют разрыв между генератором и валидатором для предоставления сигналов оценки и предварительного скрининга кандидатов на решение для человеческой проверки; и (3) UQ-Platform, открытая платформа, где эксперты коллективно проверяют вопросы и решения. Лучшая модель проходит UQ-валидацию только для 15% вопросов, а предварительная человеческая проверка уже выявила правильные ответы среди тех, что прошли проверку. UQ прокладывает путь для оценки передовых моделей на реальных, открытых задачах, где успех продвигает границы человеческих знаний. Мы публикуем UQ на https://uq.stanford.edu.
Последние достижения в области крупных моделей, работающих с визуальными и языковыми данными (VLMs), в основном сосредоточены на английском языке, при этом другим языкам уделяется ограниченное внимание. Чтобы устранить этот пробел, мы представляем MEENA (также известную как PersianMMMU) — первый набор данных, разработанный для оценки персидских VLMs в задачах научного, логического и человеческого понимания. Наш набор данных включает примерно 7 500 вопросов на персидском и 3 000 на английском языке, охватывающих широкий спектр тем, таких как логические рассуждения, математика, физика, диаграммы, графики, а также персидское искусство и литературу. Ключевые особенности MEENA включают: (1) разнообразие предметов, охватывающих различные уровни образования — от начальной до старшей школы, (2) богатые метаданные, включая уровни сложности и развернутые ответы, (3) оригинальные персидские данные, сохраняющие культурные особенности, (4) двуязычную структуру для оценки кросс-лингвистической производительности и (5) серию разнообразных экспериментов, оценивающих различные способности, включая общую производительность, умение модели обращать внимание на изображения и склонность к генерации галлюцинаций. Мы надеемся, что этот эталонный тест внесет вклад в расширение возможностей VLMs за пределами английского языка.
Полуструктурированные таблицы, широко используемые в реальных приложениях (например, финансовые отчеты, медицинские записи, транзакционные заказы), часто имеют гибкие и сложные макеты (например, иерархические заголовки и объединенные ячейки). Эти таблицы обычно требуют участия аналитиков для интерпретации их структуры и ответов на соответствующие вопросы на естественном языке, что является дорогостоящим и неэффективным процессом. Для автоматизации этой процедуры существующие методы сталкиваются с серьезными трудностями. Во-первых, методы, такие как NL2SQL, требуют преобразования полуструктурированных таблиц в структурированные, что часто приводит к значительной потере информации. Во-вторых, методы, такие как NL2Code и мультимодальные LLM QA, не способны корректно интерпретировать сложные макеты полуструктурированных таблиц и не могут точно отвечать на соответствующие вопросы. Для решения этих проблем мы предлагаем ST-Raptor, древовидную структуру для ответов на вопросы по полуструктурированным таблицам с использованием больших языковых моделей. Во-первых, мы представляем Иерархическое Ортогональное Дерево (HO-Tree), структурную модель, которая учитывает сложные макеты полуструктурированных таблиц, а также эффективный алгоритм для построения этого дерева. Во-вторых, мы определяем набор базовых операций с деревом, чтобы направлять LLM в выполнении типичных задач по ответам на вопросы. При получении вопроса пользователя ST-Raptor разбивает его на более простые подвопросы, генерирует соответствующие цепочки операций с деревом и выполняет выравнивание операций с таблицей для точного выполнения цепочки. В-третьих, мы внедряем двухэтапный механизм проверки: прямая проверка контролирует корректность шагов выполнения, а обратная проверка оценивает надежность ответов путем реконструкции запросов из предсказанных ответов. Для оценки производительности мы представляем SSTQA, набор данных из 764 вопросов по 102 реальным полуструктурированным таблицам. Эксперименты показывают, что ST-Raptor превосходит девять базовых методов на 20% по точности ответов. Код доступен по адресу https://github.com/weAIDB/ST-Raptor.
Реконструкция поверхностей широко изучается в области компьютерного зрения и графики. Однако существующие методы реконструкции поверхностей сталкиваются с трудностями при восстановлении точной геометрии сцены, когда входные данные представлены крайне разреженными видами. Для решения этой проблемы мы предлагаем MeshSplat — универсальную структуру для реконструкции поверхностей по разреженным видам с использованием метода Gaussian Splatting. Основная идея заключается в использовании 2DGS в качестве связующего звена, которое соединяет синтез новых видов с изученными геометрическими приоритетами и затем переносит эти приоритеты для достижения реконструкции поверхности. В частности, мы интегрируем прямую сеть для предсказания пиксельно-выровненных 2DGS для каждого вида, что позволяет сети синтезировать изображения новых видов и, таким образом, устраняет необходимость в прямом 3D-надзоре с использованием эталонных данных. Для повышения точности предсказания положения и ориентации 2DGS мы предлагаем функцию потерь Weighted Chamfer Distance Loss для регуляризации карт глубины, особенно в областях перекрытия входных видов, а также сеть для предсказания нормалей, чтобы выровнять ориентацию 2DGS с векторами нормалей, предсказанными монохромным оценщиком нормалей. Многочисленные эксперименты подтверждают эффективность наших предложенных улучшений, демонстрируя, что наш метод достигает передовых результатов в задачах универсальной реконструкции сеток по разреженным видам. Страница проекта: https://hanzhichang.github.io/meshsplat_web.
Композиционное визуальное рассуждение стало ключевым направлением исследований в области мультимодального искусственного интеллекта, стремясь наделить машины способностью, подобной человеческой, декомпозировать визуальные сцены, закреплять промежуточные концепции и выполнять многошаговые логические выводы. В то время как ранние обзоры сосредоточены на монолитных моделях, объединяющих зрение и язык, или на общем мультимодальном рассуждении, систематический синтез быстро расширяющейся литературы по композиционному визуальному рассуждению до сих пор отсутствует. Мы заполняем этот пробел всеобъемлющим обзором, охватывающим период с 2023 по 2025 год, в котором систематически анализируется более 260 статей из ведущих конференций (CVPR, ICCV, NeurIPS, ICML, ACL и др.). Сначала мы формализуем ключевые определения и объясняем, почему композиционные подходы предлагают преимущества в когнитивном согласовании, семантической точности, устойчивости, интерпретируемости и эффективности использования данных. Затем мы прослеживаем пятиэтапный сдвиг парадигмы: от конвейеров, усиленных подсказками и ориентированных на язык, через инструментально расширенные LLM и инструментально расширенные VLM, к недавно появившимся цепочкам рассуждений (chain-of-thought) и унифицированным агентным VLM, выделяя их архитектурные решения, сильные стороны и ограничения. Далее мы каталогизируем более 60 бенчмарков и соответствующих метрик, которые исследуют композиционное визуальное рассуждение по таким аспектам, как точность закрепления, достоверность цепочек рассуждений и восприятие высокого разрешения. На основе этих анализов мы выделяем ключевые идеи, определяем открытые проблемы (например, ограничения рассуждений на основе LLM, галлюцинации, склонность к дедуктивным рассуждениям, масштабируемость надзора, интеграция инструментов и ограничения бенчмарков) и намечаем будущие направления, включая интеграцию мировых моделей, совместное рассуждение человека и ИИ и более богатые протоколы оценки. Предлагая унифицированную таксономию, историческую карту и критический взгляд, этот обзор стремится стать фундаментальным справочником и вдохновить следующее поколение исследований в области композиционного визуального рассуждения.
Токенизаторы речи служат фундаментальными компонентами для моделей обработки речи, однако текущие конструкции имеют ряд ограничений, включая: 1) зависимость от многослойных структур остаточной векторной квантизации или высоких частот кадров, 2) необходимость использования вспомогательных предобученных моделей для семантической дистилляции и 3) требования к сложным двухэтапным процессам обучения. В данной работе мы представляем Text-aware Diffusion Transformer Speech Codec (TaDiCodec), новый подход, разработанный для преодоления этих ограничений. TaDiCodec использует сквозную оптимизацию для квантизации и реконструкции через диффузионный автоэнкодер, одновременно интегрируя текстовое руководство в диффузионный декодер для улучшения качества реконструкции и достижения оптимального сжатия. TaDiCodec достигает крайне низкой частоты кадров 6,25 Гц и соответствующей битрейта 0,0875 кбит/с с однослойным кодбуком для речи с частотой 24 кГц, сохраняя при этом превосходные результаты по ключевым метрикам оценки генерации речи, таким как Word Error Rate (WER), сходство говорящего (SIM) и качество речи (UTMOS). Важно отметить, что TaDiCodec использует одноэтапный, сквозной процесс обучения и устраняет необходимость во вспомогательных предобученных моделях. Мы также подтверждаем совместимость TaDiCodec в задачах zero-shot text-to-speech на основе языковых моделей как с авторегрессивным, так и с маскированным генеративным моделированием, демонстрируя его эффективность и производительность для моделирования речи, а также значительно меньший разрыв между реконструкцией и генерацией. Мы опубликуем наш код и контрольные точки модели. Аудиообразцы доступны по адресу https://tadicodec.github.io/. Код и контрольные точки модели доступны по адресу https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
Визуально-управляемое редактирование изображений, где изменения обусловлены как визуальными подсказками, так и текстовыми запросами, стало мощной парадигмой для детализированного и контролируемого создания контента. Хотя современные генеративные модели демонстрируют впечатляющие возможности, существующие методы оценки остаются упрощенными и недостаточно репрезентативными для реальных задач редактирования. Мы представляем SpotEdit — всеобъемлющий бенчмарк, разработанный для систематической оценки методов визуально-управляемого редактирования изображений на основе различных диффузионных, авторегрессивных и гибридных генеративных моделей, выявляя значительные различия в их производительности. Для решения важной, но недостаточно изученной проблемы наш бенчмарк включает специальный компонент, посвященный галлюцинациям, демонстрируя, как ведущие модели, такие как GPT-4o, часто "галлюцинируют" наличие визуальной подсказки и ошибочно выполняют задачу редактирования. Наш код и бенчмарк публично доступны по адресу https://github.com/SaraGhazanfari/SpotEdit.
Оценка систем генерации естественного языка (NLG) остается одной из ключевых задач в области обработки естественного языка (NLP), что усложняется появлением крупных языковых моделей (LLM), которые стремятся быть универсальными. В последнее время крупные языковые модели в роли судей (LLJ) стали перспективной альтернативой традиционным метрикам, однако их валидность остается недостаточно изученной. В данной позиционной статье утверждается, что нынешний энтузиазм вокруг LLJ может быть преждевременным, поскольку их внедрение опережает тщательную проверку их надежности и валидности в качестве инструментов оценки. Опираясь на теорию измерений из социальных наук, мы выделяем и критически анализируем четыре ключевых предположения, лежащих в основе использования LLJ: их способность выступать в качестве заместителей человеческого суждения, их возможности как оценочных инструментов, их масштабируемость и экономическая эффективность. Мы исследуем, как каждое из этих предположений может быть поставлено под сомнение из-за присущих ограничений LLM, LLJ или текущих практик оценки NLG. Для обоснования нашего анализа мы рассматриваем три применения LLJ: суммаризация текста, аннотирование данных и обеспечение безопасности. В заключение мы подчеркиваем необходимость более ответственных практик оценки LLJ, чтобы их растущая роль в этой области способствовала, а не подрывала прогресс в NLG.
Способность перефразировать тексты на различных уровнях сложности крайне важна для создания доступных текстов, которые можно адаптировать для различных групп читателей. В связи с этим мы представляем German4All — первый крупномасштабный немецкий набор данных, содержащий выровненные по читаемости парафразы на уровне абзацев. Он охватывает пять уровней читаемости и включает более 25 000 примеров. Набор данных автоматически синтезирован с использованием GPT-4 и тщательно оценен как с помощью экспертов, так и с использованием моделей на основе больших языковых моделей (LLM). На основе German4All мы обучаем открытую модель контролируемого по читаемости перефразирования, которая демонстрирует наилучшие результаты в упрощении немецких текстов, обеспечивая более тонкую и адаптированную под конкретного читателя обработку. Мы открываем доступ как к набору данных, так и к модели, чтобы стимулировать дальнейшие исследования в области многоуровневого перефразирования.
В данной работе исследуются ограничения нормализации в механизмах внимания. Мы начинаем с теоретической основы, которая позволяет определить избирательную способность модели и геометрическое разделение, связанное с выбором токенов. Наш анализ включает явные границы расстояний и критерии разделения для векторов токенов при масштабировании с использованием функции softmax. В экспериментах с предобученной моделью GPT-2 мы эмпирически подтверждаем наши теоретические результаты и анализируем ключевые аспекты поведения механизма внимания. В частности, мы показываем, что по мере увеличения числа выбранных токенов способность модели различать информативные токены снижается, часто приближаясь к равномерному распределению выбора. Мы также демонстрируем, что чувствительность градиентов при нормализации softmax создает трудности в процессе обучения, особенно при низких значениях температуры. Эти результаты углубляют текущее понимание механизмов внимания, основанных на softmax, и подчеркивают необходимость разработки более устойчивых стратегий нормализации и выбора в будущих архитектурах внимания.
Эхокардиография занимает центральное место в визуализации сердца, предоставляя динамические изображения, которые необходимы для диагностики и мониторинга. Однако качество изображения может значительно ухудшаться из-за тумана, вызванного многократными реверберациями, особенно у пациентов, которых сложно визуализировать. В данной работе мы предлагаем семантически-ориентированный алгоритм удаления тумана на основе диффузии, разработанный для конкурса MICCAI Dehazing Echocardiography Challenge (DehazingEcho2025). Наш метод интегрирует покомпонентную модель шума, полученную из семантической сегментации затуманенных изображений, в рамках диффузионного сэмплирования апостериорных распределений, управляемого генеративным априором, обученным на чистых ультразвуковых данных. Количественная оценка на наборе данных конкурса демонстрирует высокую производительность по метрикам контраста и точности. Код представленного алгоритма доступен по адресу https://github.com/tristan-deep/semantic-diffusion-echo-dehazing.
Фотореализм является важным аспектом современных видеоигр, поскольку он может формировать игровой опыт, одновременно влияя на погружение, вовлеченность в сюжет и визуальное качество. Хотя недавние технологические прорывы в области аппаратного обеспечения, наряду с передовыми технологиями рендеринга, значительно улучшили визуальный реализм видеоигр, достижение истинного фотореализма в динамических средах с реальным временем кадров по-прежнему остается серьезной проблемой из-за компромисса между визуальным качеством и производительностью. В этой краткой статье мы представляем новый подход для повышения фотореализма рендеренных игровых кадров с использованием генеративных состязательных сетей. Для этого мы предлагаем фреймворк Real-time photorealism Enhancement in Games via a dual-stage gEnerative Network (REGEN), который использует надежную модель непарного преобразования изображений для создания семантически согласованных фотореалистичных кадров, преобразуя задачу в более простую задачу парного преобразования изображений. Это позволяет обучать легковесный метод, который может достигать времени вывода в реальном времени без ущерба для визуального качества. Мы демонстрируем эффективность нашего фреймворка на примере игры Grand Theft Auto V, показывая, что подход достигает визуальных результатов, сопоставимых с теми, которые создаются надежным методом непарного Im2Im, при этом улучшая скорость вывода в 32,14 раза. Наши результаты также показывают, что кадры с улучшенным фотореализмом превосходят те, которые создаются путем прямого обучения легковесного метода непарного Im2Im для преобразования игровых кадров в визуальные характеристики реальных изображений. Код, предобученные модели и демонстрации для этой работы доступны по адресу: https://github.com/stefanos50/REGEN.
Предыдущие исследования показали, что пресуппозиции в генерируемых вопросах могут вводить непроверенные предположения, что приводит к несоответствиям при проверке утверждений. Кроме того, чувствительность к формулировкам запросов остается серьезной проблемой для больших языковых моделей (LLM), вызывая колебания производительности в пределах 3-6%. Хотя последние достижения сократили этот разрыв, наше исследование демонстрирует, что чувствительность к формулировкам остается устойчивой проблемой. Для решения этой задачи мы предлагаем структурированный и надежный фреймворк для проверки утверждений, который основывается на декомпозированных вопросах, свободных от пресуппозиций. Многочисленные эксперименты с различными формулировками, наборами данных и LLM показывают, что даже современные модели остаются подверженными влиянию вариативности формулировок и пресуппозиций. Наш метод последовательно устраняет эти проблемы, обеспечивая улучшение до 2-5%.