ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

InternVL3: Explorando Técnicas Avançadas de Treinamento e Procedimentos em Tempo de Teste para Modelos Multimodais de Código Aberto
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Apr 14
ByJinguo Zhu, Weiyun Wang, Zhe Chen, Zhaoyang Liu, Shenglong Ye, Lixin Gu, Yuchen Duan, Hao Tian, Weijie Su, Jie Shao, Zhangwei Gao, Erfei Cui, Yue Cao, Yangzhou Liu, Weiye Xu, Hao Li, Jiahao Wang, Han Lv, Dengnian Chen, Songze Li, Yinan He, Tan Jiang, Jiapeng Luo, Yi Wang, Conghui He, Botian Shi, Xingcheng Zhang, Wenqi Shao, Junjun He, Yingtong Xiong, Wenwen Qu, Peng Sun, Penglong Jiao, Lijun Wu, Kaipeng Zhang, Huipeng Deng, Jiaye Ge, Kai Chen, Limin Wang, Min Dou, Lewei Lu, Xizhou Zhu, Tong Lu, Dahua Lin, Yu Qiao, Jifeng Dai, Wenhai Wang
298
8

Apresentamos o InternVL3, um avanço significativo na série InternVL que apresenta um paradigma nativo de pré-treinamento multimodal. Em vez de adaptar um modelo de linguagem grande (LLM) exclusivamente textual para um modelo de linguagem grande multimodal (MLLM) que suporta entradas visuais, o InternVL3 adquire conjuntamente capacidades multimodais e linguísticas a partir de dados multimodais diversos e corpora de texto puro durante uma única etapa de pré-treinamento. Esse paradigma unificado de treinamento aborda efetivamente as complexidades e desafios de alinhamento comumente encontrados nos pipelines convencionais de treinamento pós-hoc para MLLMs. Para melhorar ainda mais o desempenho e a escalabilidade, o InternVL3 incorpora codificação de posição visual variável (V2PE) para suportar contextos multimodais estendidos, emprega técnicas avançadas de pós-treinamento, como ajuste fino supervisionado (SFT) e otimização de preferências mistas (MPO), e adota estratégias de escalonamento em tempo de teste juntamente com uma infraestrutura de treinamento otimizada. Avaliações empíricas extensivas demonstram que o InternVL3 oferece desempenho superior em uma ampla gama de tarefas multimodais. Em particular, o InternVL3-78B alcança uma pontuação de 72,2 no benchmark MMMU, estabelecendo um novo estado da arte entre os MLLMs de código aberto. Suas capacidades permanecem altamente competitivas com os principais modelos proprietários, incluindo ChatGPT-4o, Claude 3.5 Sonnet e Gemini 2.5 Pro, ao mesmo tempo em que mantém uma forte proficiência em linguagem pura. Em busca dos princípios da ciência aberta, disponibilizaremos publicamente tanto os dados de treinamento quanto os pesos do modelo para promover pesquisas e desenvolvimentos futuros em MLLMs de próxima geração.

2

PRIMA.CPP: Acelerando a Inferência de LLMs em Escala de 70B em Clusters Domésticos de Baixos Recursos
PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters

Apr 7
ByZonghang Li, Tao Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu
136
10

O surgimento do DeepSeek R1 e do QwQ 32B superou as barreiras de desempenho para a execução de modelos de linguagem de grande escala (LLMs) de ponta em dispositivos domésticos. Embora o hardware de consumo esteja se tornando mais potente e a quantização de modelos esteja melhorando, as soluções existentes para o lado do cliente ainda exigem clusters de GPU, grande quantidade de RAM/VRAM e alta largura de banda, muito além do que um cluster doméstico comum pode suportar. Este artigo apresenta o prima.cpp, um sistema de inferência distribuída que executa modelos em escala de 70B em dispositivos domésticos comuns, utilizando uma combinação de CPU/GPU, baixa RAM/VRAM, Wi-Fi e suporte multiplataforma. Ele usa mmap para gerenciar os pesos do modelo e introduz o paralelismo em anel com pré-busca para ocultar o carregamento do disco. Ao modelar a heterogeneidade na computação, comunicação, disco, memória (e seu comportamento de gerenciamento) e sistema operacional, ele atribui de forma ideal as camadas do modelo à CPU e GPU de cada dispositivo, reduzindo ainda mais a latência por token. Um algoritmo elegante chamado Halda é proposto para resolver esse problema de atribuição NP-difícil. Avaliamos o prima.cpp em um cluster doméstico comum de quatro nós. Ele supera o llama.cpp, exo e dllama em modelos de 30B+, mantendo a pressão de memória abaixo de 6%. Isso traz modelos de ponta de 30B a 70B, como Llama 3, DeepSeek R1, Qwen 2.5 e QwQ, para assistentes domésticos, tornando a IA avançada verdadeiramente acessível para indivíduos. O código é de código aberto e está disponível em https://github.com/Lizonghang/prima.cpp.

3

Já unificamos a geração e compreensão de imagens? Um estudo empírico sobre a capacidade de geração de imagens do GPT-4o
Have we unified image generation and understanding yet? An empirical study of GPT-4o's image generation ability

Apr 9
ByNing Li, Jingran Zhang, Justin Cui
49
2

O GPT-4o multimodal da OpenAI demonstrou capacidades notáveis na geração e edição de imagens, mas sua habilidade de realizar síntese semântica informada por conhecimento do mundo—integrando de forma contínua conhecimento de domínio, raciocínio contextual e aderência a instruções—ainda não foi comprovada. Neste estudo, avaliamos sistematicamente essas capacidades em três dimensões críticas: (1) Aderência Global a Instruções, (2) Precisão em Edições de Detalhes Finos e (3) Raciocínio Pós-Geração. Embora os benchmarks existentes destaquem as fortes capacidades do GPT-4o em geração e edição de imagens, nossa avaliação revela limitações persistentes do modelo: ele frequentemente recorre a interpretações literais das instruções, aplica de forma inconsistente restrições de conhecimento e enfrenta dificuldades em tarefas de raciocínio condicional. Esses achados desafiam suposições predominantes sobre o entendimento unificado e as capacidades de geração do GPT-4o, expondo lacunas significativas em sua integração dinâmica de conhecimento. Nosso estudo defende o desenvolvimento de benchmarks e estratégias de treinamento mais robustos, que vão além do alinhamento superficial, enfatizando a geração multimodal fundamentada em contexto e raciocínio.

4

VL-Rethinker: Incentivando a Autorreflexão de Modelos Visão-Linguagem com Aprendizado por Reforço
VL-Rethinker: Incentivizing Self-Reflection of Vision-Language Models with Reinforcement Learning

Apr 10
ByHaozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen
43
2

Recentemente, sistemas de pensamento lento como o GPT-o1 e o DeepSeek-R1 demonstraram grande potencial na resolução de problemas desafiadores por meio de reflexão explícita. Eles superam significativamente os melhores modelos de pensamento rápido, como o GPT-4o, em diversos benchmarks de matemática e ciências. No entanto, suas capacidades de raciocínio multimodal permanecem equivalentes às dos modelos de pensamento rápido. Por exemplo, o desempenho do GPT-o1 em benchmarks como MathVista, MathVerse e MathVision é semelhante ao dos modelos de pensamento rápido. Neste artigo, buscamos aprimorar as capacidades de pensamento lento de modelos de visão e linguagem utilizando aprendizado por reforço (sem depender de destilação) para avançar o estado da arte. Primeiro, adaptamos o algoritmo GRPO com uma nova técnica chamada Replay Seletivo de Amostras (SSR) para abordar o problema das vantagens desaparecidas. Embora essa abordagem resulte em um desempenho forte, os modelos treinados com RL resultantes exibem reflexão ou auto-verificação limitadas. Para incentivar ainda mais o pensamento lento, introduzimos o Repensar Forçado, que adiciona um gatilho textual de repensar ao final das execuções iniciais no treinamento de RL, impondo explicitamente uma etapa de raciocínio de auto-reflexão. Ao combinar essas duas técnicas, nosso modelo, VL-Rethinker, avança as pontuações de estado da arte no MathVista, MathVerse e MathVision para alcançar 80,3%, 61,8% e 43,9%, respectivamente. O VL-Rethinker também alcança o SoTA de código aberto em benchmarks multidisciplinares como MMMU-Pro, EMMA e MEGA-Bench, reduzindo a lacuna com o GPT-o1.

5

FUSION: Integração Completa de Representações Visão-Linguagem para Compreensão Profunda Transmodal
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

Apr 14
ByZheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
38
3

Apresentamos o FUSION, uma família de modelos de linguagem multimodal de grande escala (MLLMs) com um paradigma completo de alinhamento e integração visão-linguagem. Diferentemente dos métodos existentes que dependem principalmente da interação tardia de modalidades durante a decodificação do LLM, nossa abordagem alcança uma integração profunda e dinâmica em todo o pipeline de processamento. Para isso, propomos o Text-Guided Unified Vision Encoding, que incorpora informações textuais na codificação visual para alcançar integração em nível de pixel. Além disso, projetamos o Context-Aware Recursive Alignment Decoding, que agrega recursivamente características visuais condicionadas ao contexto textual durante a decodificação, permitindo uma integração semântica refinada em nível de pergunta. Para orientar o mapeamento de características e mitigar discrepâncias entre modalidades, desenvolvemos o Dual-Supervised Semantic Mapping Loss. Adicionalmente, construímos um conjunto de dados Synthesized Language-Driven Question-Answer (QA) por meio de um novo método de síntese de dados, priorizando pares QA de alta qualidade para otimizar a integração de características guiada por texto. Com base nesses fundamentos, treinamos o FUSION em duas escalas—3B e 8B—e demonstramos que nossa abordagem de integração de modalidade completa supera significativamente os métodos existentes com apenas 630 tokens visuais. Notavelmente, o FUSION 3B supera o Cambrian-1 8B e o Florence-VL 8B na maioria dos benchmarks. O FUSION 3B continua a superar o Cambrian-1 8B mesmo quando limitado a 300 tokens visuais. Nossos estudos de ablação mostram que o FUSION supera o LLaVA-NeXT em mais da metade dos benchmarks sob a mesma configuração sem resolução dinâmica, destacando a eficácia de nossa abordagem. Disponibilizamos nosso código, pesos do modelo e conjunto de dados. https://github.com/starriver030515/FUSION

6

Auto-Treinamento Iterativo para Geração de Código via Re-Ranqueamento Reforçado
Iterative Self-Training for Code Generation via Reinforced Re-Ranking

Apr 13
ByNikita Sorokin, Ivan Sedykh, Valentin Malykh
34
2

Gerar código de alta qualidade que resolva tarefas de programação complexas é um desafio, especialmente com os modelos baseados em decodificadores atuais, que produzem saídas altamente estocásticas. Na geração de código, até mesmo erros menores podem facilmente comprometer toda a solução. Aproveitar múltiplas soluções amostradas pode melhorar significativamente a qualidade geral da saída. Uma maneira eficaz de aprimorar a geração de código é emparelhar um modelo de geração de código com um modelo de reranking, que seleciona a melhor solução entre as amostras geradas. Propomos uma nova abordagem iterativa de auto-treinamento para modelos de reranking usando Otimização de Política Proximal (PPO), com o objetivo de melhorar tanto a precisão do reranking quanto o processo geral de geração de código. Diferentemente das abordagens tradicionais de PPO, onde o foco está em otimizar um modelo generativo com um modelo de recompensa, nossa abordagem enfatiza o desenvolvimento de um modelo robusto de recompensa/reranking. Esse modelo melhora a qualidade do código gerado por meio do reranking e aborda problemas e erros que o modelo de recompensa pode ignorar durante o alinhamento de PPO com o reranker. Nosso método refina iterativamente o conjunto de dados de treinamento reavaliando as saídas, identificando exemplos negativos de alta pontuação e incorporando-os no loop de treinamento, impulsionando o desempenho do modelo. Nossa avaliação no conjunto de dados MultiPL-E demonstra que nosso modelo de 13,4 bilhões de parâmetros supera um modelo de 33 bilhões em qualidade de geração de código, sendo três vezes mais rápido. Além disso, ele alcança desempenho comparável ao GPT-4 e o supera em uma linguagem de programação.

7

Mavors: Representação de Vídeo Multigranular para Modelos de Linguagem Multimodais de Grande Escala
Mavors: Multi-granularity Video Representation for Multimodal Large Language Model

Apr 14
ByYang Shi, Jiaheng Liu, Yushuo Guan, Zhenhua Wu, Yuanxing Zhang, Zihao Wang, Weihong Lin, Jingyun Hua, Zekun Wang, Xinlong Chen, Bohan Zeng, Wentao Zhang, Fuzheng Zhang, Wenjing Yang, Di Zhang
30
2

A compreensão de vídeos de longo contexto em modelos de linguagem multimodal de grande escala (MLLMs) enfrenta um desafio crítico: equilibrar a eficiência computacional com a retenção de padrões espaço-temporais detalhados. As abordagens existentes (por exemplo, amostragem esparsa, amostragem densa com baixa resolução e compressão de tokens) sofrem com perda significativa de informações nas dinâmicas temporais, detalhes espaciais ou interações sutis, especialmente em vídeos com movimentos complexos ou resoluções variadas. Para resolver isso, propomos o Mavors, um novo framework que introduz uma representação de vídeo multi-granularidade para modelagem holística de vídeos longos. Especificamente, o Mavors codifica diretamente o conteúdo bruto do vídeo em representações latentes por meio de dois componentes principais: 1) um Codificador Visual Intra-bloco (IVE) que preserva características espaciais de alta resolução por meio de convoluções 3D e Transformers Visuais, e 2) um Agregador de Características Inter-bloco (IFA) que estabelece coerência temporal entre blocos usando modelagem de dependência baseada em transformers com codificações de posição rotativa em nível de bloco. Além disso, o framework unifica a compreensão de imagens e vídeos tratando imagens como vídeos de quadro único por meio de decomposição de sub-imagens. Experimentos em diversos benchmarks demonstram a superioridade do Mavors em manter tanto a fidelidade espacial quanto a continuidade temporal, superando significativamente os métodos existentes em tarefas que exigem raciocínio espaço-temporal detalhado.

8

AgentRewardBench: Avaliando Avaliações Automáticas de Trajetórias de Agentes Web
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories

Apr 11
ByXing Han Lù, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Stańczak, Peter Shaw, Christopher J. Pal, Siva Reddy
27
2

Agentes web permitem que os usuários realizem tarefas em navegadores por meio de interação em linguagem natural. Avaliar as trajetórias de agentes web é um problema importante, pois nos ajuda a determinar se o agente concluiu as tarefas com sucesso. Métodos baseados em regras são amplamente utilizados para esse fim, mas são difíceis de estender para novas tarefas e nem sempre reconhecem trajetórias bem-sucedidas. Podemos obter maior precisão por meio de avaliação humana, mas o processo seria substancialmente mais lento e caro. Avaliações automáticas com LLMs podem evitar os desafios de criar novas regras e anotar trajetórias manualmente, permitindo uma avaliação mais rápida e econômica. No entanto, não está claro o quão eficazes elas são na avaliação de agentes web. Para isso, propomos o AgentRewardBench, o primeiro benchmark para avaliar a eficácia de juízes LLM na avaliação de agentes web. O AgentRewardBench contém 1302 trajetórias em 5 benchmarks e 4 LLMs. Cada trajetória no AgentRewardBench é revisada por um especialista, que responde a perguntas sobre o sucesso, efeitos colaterais e repetitividade do agente. Usando nosso benchmark, avaliamos 12 juízes LLM e descobrimos que nenhum LLM se destaca em todos os benchmarks. Também observamos que a avaliação baseada em regras usada por benchmarks comuns tende a subestimar a taxa de sucesso dos agentes web, destacando uma fraqueza fundamental da avaliação baseada em regras e a necessidade de desenvolver avaliações automáticas mais flexíveis. Disponibilizamos o benchmark em: https://agent-reward-bench.github.io

9

S1-Bench: Um Benchmark Simples para Avaliar a Capacidade de Pensamento do Sistema 1 em Modelos de Raciocínio de Grande Escala
S1-Bench: A Simple Benchmark for Evaluating System 1 Thinking Capability of Large Reasoning Models

Apr 14
ByWenyuan Zhang, Shuaiyi Nie, Xinghua Zhang, Zefeng Zhang, Tingwen Liu
21
3

Apresentamos o S1-Bench, um novo benchmark projetado para avaliar o desempenho de Modelos de Raciocínio de Grande Escala (LRMs) em tarefas simples que favorecem o pensamento intuitivo do sistema 1, em vez do raciocínio deliberativo do sistema 2. Embora os LRMs tenham alcançado avanços significativos em tarefas complexas de raciocínio por meio de cadeias explícitas de pensamento, sua dependência do pensamento analítico profundo pode limitar suas capacidades de pensamento do sistema 1. Além disso, atualmente não existe um benchmark para avaliar o desempenho dos LRMs em tarefas que exigem tais capacidades. Para preencher essa lacuna, o S1-Bench apresenta um conjunto de perguntas simples, diversas e naturalmente claras em vários domínios e idiomas, especificamente projetadas para avaliar o desempenho dos LRMs nessas tarefas. Nossa avaliação abrangente de 22 LRMs revela tendências significativamente menores de eficiência, com saídas em média 15,5 vezes mais longas do que as de pequenos LLMs tradicionais. Além disso, os LRMs frequentemente identificam respostas corretas no início, mas continuam com deliberações desnecessárias, com alguns modelos até produzindo vários erros. Essas descobertas destacam os padrões rígidos de raciocínio dos LRMs atuais e enfatizam o desenvolvimento substancial necessário para alcançar capacidades equilibradas de pensamento de sistema duplo que possam se adaptar adequadamente à complexidade da tarefa.

10

DUMP: Aprendizado de Currículo Automatizado em Nível de Distribuição para Pós-treinamento de LLMs Baseados em RL
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training

Apr 13
ByZhenting Wang, Guofeng Cui, Kun Wan, Wentian Zhao
19
2

Os recentes avanços no pós-treinamento baseado em aprendizagem por reforço (RL) levaram a melhorias notáveis em modelos de linguagem de grande escala (LLMs), particularmente no aprimoramento de suas capacidades de raciocínio para lidar com tarefas complexas. No entanto, a maioria dos métodos existentes trata os dados de treinamento como um todo unificado, ignorando o fato de que o treinamento moderno de LLMs frequentemente envolve uma mistura de dados provenientes de diversas distribuições, variando tanto em origem quanto em dificuldade. Essa heterogeneidade introduz um desafio fundamental: como agendar de forma adaptativa o treinamento entre as distribuições para otimizar a eficiência do aprendizado. Neste artigo, apresentamos uma estrutura de aprendizado curricular fundamentada na noção de aprendibilidade em nível de distribuição. Nossa principal percepção é que a magnitude das vantagens da política reflete o quanto um modelo ainda pode se beneficiar de um treinamento adicional em uma determinada distribuição. Com base nisso, propomos uma estrutura de aprendizado curricular em nível de distribuição para o pós-treinamento de LLMs baseado em RL, que utiliza o princípio do Limite Superior de Confiança (UCB) para ajustar dinamicamente as probabilidades de amostragem para diferentes distribuições. Essa abordagem prioriza distribuições com alta vantagem média (exploração) ou baixa contagem de amostras (exploração), resultando em um cronograma de treinamento adaptativo e teoricamente fundamentado. Instanciamos nossa estrutura de aprendizado curricular com GRPO como o algoritmo de RL subjacente e demonstramos sua eficácia em conjuntos de dados de raciocínio lógico com múltiplas dificuldades e origens. Nossos experimentos mostram que nossa estrutura melhora significativamente a velocidade de convergência e o desempenho final, destacando o valor de estratégias curriculares conscientes da distribuição no pós-treinamento de LLMs. Código: https://github.com/ZhentingWang/DUMP.

11

MIEB: Benchmark de Embedding de Imagens em Grande Escala
MIEB: Massive Image Embedding Benchmark

Apr 14
ByChenghao Xiao, Isaac Chung, Imene Kerboua, Jamie Stirling, Xin Zhang, Márton Kardos, Roman Solomatin, Noura Al Moubayed, Kenneth Enevoldsen, Niklas Muennighoff
19
2

As representações de imagens são frequentemente avaliadas por meio de protocolos desconexos e específicos para cada tarefa, resultando em uma compreensão fragmentada das capacidades dos modelos. Por exemplo, não está claro se um modelo de incorporação de imagens que é habilidoso em agrupar imagens é igualmente bom em recuperar imagens relevantes dado um texto. Introduzimos o Massive Image Embedding Benchmark (MIEB) para avaliar o desempenho de modelos de incorporação de imagens e de texto-imagem na mais ampla gama de tarefas até o momento. O MIEB abrange 38 idiomas em 130 tarefas individuais, que agrupamos em 8 categorias de alto nível. Avaliamos 50 modelos em nosso benchmark, constatando que nenhum método único domina todas as categorias de tarefas. Revelamos capacidades ocultas em modelos avançados de visão, como sua representação visual precisa de textos, e suas capacidades ainda limitadas em codificações intercaladas e na correspondência de imagens e textos na presença de fatores de confusão. Também mostramos que o desempenho de codificadores de visão no MIEB está altamente correlacionado com seu desempenho quando usados em modelos de linguagem multimodal de grande escala. Nosso código, conjunto de dados e leaderboard estão publicamente disponíveis em https://github.com/embeddings-benchmark/mteb.

12

Superando a Barreira dos Dados -- Construindo Agentes de Interface Gráfica por meio de Generalização de Tarefas
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

Apr 14
ByJunlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He
17
2

Agentes de Interface Gráfica do Usuário (GUI) oferecem soluções multiplataforma para a automação de tarefas digitais complexas, com potencial significativo para transformar fluxos de trabalho de produtividade. No entanto, seu desempenho é frequentemente limitado pela escassez de dados de trajetória de alta qualidade. Para superar essa limitação, propomos treinar Modelos de Linguagem Visual (VLMs) em tarefas ricas em dados e intensivas em raciocínio durante uma etapa dedicada de treinamento intermediário, e então examinamos como a incorporação dessas tarefas facilita a generalização para cenários de planejamento em GUI. Especificamente, exploramos uma variedade de tarefas com dados de ajuste de instrução prontamente disponíveis, incluindo percepção de GUI, raciocínio multimodal e raciocínio textual. Por meio de extensos experimentos em 11 tarefas de treinamento intermediário, demonstramos que: (1) A generalização de tarefas se mostra altamente eficaz, resultando em melhorias substanciais na maioria dos cenários. Por exemplo, o raciocínio matemático multimodal melhora o desempenho no AndroidWorld em 6,3% absoluto. Notavelmente, dados matemáticos apenas em texto impulsionam significativamente o desempenho de agentes GUI na web, alcançando uma melhoria de 5,6% no WebArena e 5,4% no AndroidWorld, destacando uma notável generalização multimodal de domínios textuais para visuais; (2) Contrariamente a suposições anteriores, os dados de percepção de GUI - anteriormente considerados alinhados de perto com tarefas de agentes GUI e amplamente utilizados para treinamento - têm um impacto comparativamente limitado no desempenho final; (3) Com base nessas descobertas, identificamos as tarefas de treinamento intermediário mais eficazes e criamos conjuntos de dados mistos otimizados, resultando em ganhos absolutos de desempenho de 8,0% no WebArena e 12,2% no AndroidWorld. Nosso trabalho fornece insights valiosos sobre a transferência de conhecimento entre domínios para agentes GUI e oferece uma abordagem prática para enfrentar os desafios de escassez de dados nesse campo emergente. O código, dados e modelos estarão disponíveis em https://github.com/hkust-nlp/GUIMid.

13

SocioVerse: Um Modelo de Mundo para Simulação Social Alimentado por Agentes de LLM e um Conjunto de 10 Milhões de Usuários do Mundo Real
SocioVerse: A World Model for Social Simulation Powered by LLM Agents and A Pool of 10 Million Real-World Users

Apr 14
ByXinnong Zhang, Jiayu Lin, Xinyi Mou, Shiyue Yang, Xiawei Liu, Libo Sun, Hanjia Lyu, Yihang Yang, Weihong Qi, Yue Chen, Guanying Li, Ling Yan, Yao Hu, Siming Chen, Yu Wang, Jingxuan Huang, Jiebo Luo, Shiping Tang, Libo Wu, Baohua Zhou, Zhongyu Wei
17
3

A simulação social está transformando a pesquisa tradicional em ciências sociais ao modelar o comportamento humano por meio de interações entre indivíduos virtuais e seus ambientes. Com os recentes avanços em modelos de linguagem de grande escala (LLMs, na sigla em inglês), essa abordagem tem demonstrado um potencial crescente para capturar diferenças individuais e prever comportamentos de grupo. No entanto, os métodos existentes enfrentam desafios de alinhamento relacionados ao ambiente, aos usuários-alvo, aos mecanismos de interação e aos padrões comportamentais. Para isso, apresentamos o SocioVerse, um modelo de mundo orientado por agentes LLM para simulação social. Nosso framework apresenta quatro componentes poderosos de alinhamento e um pool de usuários com 10 milhões de indivíduos reais. Para validar sua eficácia, conduzimos experimentos de simulação em larga escala em três domínios distintos: política, notícias e economia. Os resultados demonstram que o SocioVerse pode refletir a dinâmica populacional em grande escala, garantindo diversidade, credibilidade e representatividade por meio de procedimentos padronizados e ajustes manuais mínimos.

14

TinyLLaVA-Video-R1: Rumo a Modelos de Linguagem Multimodais Menores para Raciocínio em Vídeo
TinyLLaVA-Video-R1: Towards Smaller LMMs for Video Reasoning

Apr 13
ByXingjian Zhang, Siwei Wen, Wenjun Wu, Lei Huang
16
3

Recentemente, a melhoria da capacidade de raciocínio de modelos multimodais de grande escala (LMMs) por meio de aprendizado por reforço tem alcançado progressos significativos. No entanto, a maioria dos trabalhos existentes baseia-se em conjuntos de dados altamente intensivos em raciocínio, como matemática e código, e os pesquisadores geralmente escolhem modelos de grande escala como base. Argumentamos que explorar as capacidades de raciocínio de modelos de pequena escala continua sendo valioso para pesquisadores com recursos computacionais limitados. Além disso, permitir que os modelos expliquem seus processos de raciocínio em conjuntos de dados gerais de perguntas e respostas é igualmente significativo. Portanto, apresentamos o modelo de raciocínio em vídeo de pequena escala TinyLLaVA-Video-R1. Baseado no TinyLLaVA-Video, um modelo de compreensão de vídeo treinado de forma rastreável com não mais que 4 bilhões de parâmetros, ele não apenas demonstra capacidades de raciocínio e pensamento significativamente aprimoradas após o uso de aprendizado por reforço em conjuntos de dados gerais de Video-QA, mas também exibe a característica emergente de "momentos de insight". Além disso, compartilhamos uma série de descobertas experimentais, com o objetivo de fornecer insights práticos para futuras explorações das habilidades de raciocínio (pensamento) em vídeo em modelos de pequena escala. Ele está disponível em https://github.com/ZhangXJ199/TinyLLaVA-Video-R1.

15

M1: Rumo à Computação Escalável em Tempo de Teste com Modelos de Raciocínio Mamba
M1: Towards Scalable Test-Time Compute with Mamba Reasoning Models

Apr 14
ByJunxiong Wang, Wen-Ding Li, Daniele Paliotta, Daniel Ritter, Alexander M. Rush, Tri Dao
15
2

O raciocínio eficaz é crucial para resolver problemas matemáticos complexos. Modelos de linguagem de grande escala (LLMs) recentes têm impulsionado o desempenho ao escalar a computação em tempo de teste por meio de longas cadeias de raciocínio. No entanto, modelos baseados em transformers são intrinsecamente limitados na extensão do comprimento do contexto devido à sua complexidade computacional quadrática e requisitos lineares de memória. Neste artigo, introduzimos um novo modelo híbrido de raciocínio RNN linear, M1, construído sobre a arquitetura Mamba, que permite inferência eficiente em termos de memória. Nossa abordagem aproveita um processo de destilação de modelos de raciocínio existentes e é ainda aprimorada por meio de treinamento com RL. Resultados experimentais nos benchmarks AIME e MATH mostram que o M1 não apenas supera modelos anteriores de RNN linear, mas também iguala o desempenho dos modelos de raciocínio destilados Deepseek R1 de última geração em uma escala similar. Também comparamos nossa velocidade de geração com um motor de inferência de propósito geral altamente performático, vLLM, e observamos um aumento de mais de 3x em comparação com um transformer de mesmo tamanho. Com o aumento da taxa de transferência, conseguimos alcançar maior precisão em comparação com os modelos de raciocínio transformer destilados DeepSeek R1 sob um tempo fixo de geração usando votação de autoconfirmação. No geral, introduzimos um modelo de raciocínio híbrido Mamba e fornecemos uma abordagem mais eficaz para escalar a geração em tempo de teste usando autoconfirmação ou longas cadeias de raciocínio.

16

O Cientista de IA-v2: Descoberta Científica Automatizada em Nível de Laboratório por meio de Busca em Árvore Agente
The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search

Apr 10
ByYutaro Yamada, Robert Tjarko Lange, Cong Lu, Shengran Hu, Chris Lu, Jakob Foerster, Jeff Clune, David Ha
14
3

A IA está desempenhando um papel cada vez mais crucial na transformação de como as descobertas científicas são realizadas. Apresentamos o AI Scientist-v2, um sistema agentivo de ponta a ponta capaz de produzir o primeiro artigo de workshop gerado inteiramente por IA e aceito em revisão por pares. Este sistema formula iterativamente hipóteses científicas, projeta e executa experimentos, analisa e visualiza dados, e redige autonomamente manuscritos científicos. Em comparação com seu predecessor (v1, Lu et al., 2024 arXiv:2408.06292), o AI Scientist-v2 elimina a dependência de modelos de código escritos por humanos, generaliza efetivamente em diversos domínios de aprendizado de máquina e utiliza uma nova metodologia de busca em árvore agentiva progressiva, gerenciada por um agente dedicado à gestão de experimentos. Além disso, aprimoramos o componente de revisor de IA ao integrar um loop de feedback de Modelo de Visão e Linguagem (VLM) para refinamento iterativo do conteúdo e da estética das figuras. Avaliamos o AI Scientist-v2 ao submeter três manuscritos totalmente autônomos a um workshop revisado por pares da ICLR. Notavelmente, um dos manuscritos obteve pontuação suficiente para superar o limiar médio de aceitação humana, marcando a primeira ocorrência de um artigo totalmente gerado por IA a passar com sucesso por uma revisão por pares. Essa conquista destaca a crescente capacidade da IA em conduzir todos os aspectos da pesquisa científica. Antecipamos que avanços adicionais em tecnologias de descoberta científica autônoma impactarão profundamente a geração de conhecimento humano, permitindo uma escalabilidade sem precedentes na produtividade da pesquisa e acelerando significativamente os avanços científicos, beneficiando enormemente a sociedade como um todo. Disponibilizamos o código em código aberto em https://github.com/SakanaAI/AI-Scientist-v2 para fomentar o desenvolvimento futuro dessa tecnologia transformadora. Também discutimos o papel da IA na ciência, incluindo a segurança da IA.

17

Abstrações Funcionais Executáveis: Inferindo Programas Gerativos para Problemas Avançados de Matemática
Executable Functional Abstractions: Inferring Generative Programs for Advanced Math Problems

Apr 14
ByZaid Khan, Elias Stengel-Eskin, Archiki Prasad, Jaemin Cho, Mohit Bansal
12
2

Cientistas frequentemente inferem procedimentos abstratos a partir de instâncias específicas de problemas e usam essas abstrações para gerar novas instâncias relacionadas. Por exemplo, programas que codificam as regras e propriedades formais de um sistema têm sido úteis em áreas que vão desde RL (ambientes procedurais) até física (motores de simulação). Esses programas podem ser vistos como funções que executam para diferentes saídas com base em suas parametrizações (por exemplo, configuração de gridworld ou condições físicas iniciais). Introduzimos o termo EFA (Abstração Funcional Executável) para denotar tais programas para problemas matemáticos. Construções semelhantes a EFAs têm se mostrado úteis para raciocínio matemático como geradores de problemas para testar modelos. No entanto, trabalhos anteriores se limitaram a abstrações para matemática do ensino fundamental (cujas regras simples são fáceis de codificar em programas), enquanto a geração de EFAs para matemática avançada até agora exigiu engenharia humana. Exploramos a construção automática de EFAs para problemas matemáticos avançados. Operacionalizamos a tarefa de construir EFAs automaticamente como uma tarefa de síntese de programas e desenvolvemos o EFAGen, que condiciona um LLM em um problema matemático inicial e sua solução passo a passo para gerar programas EFA candidatos que são fiéis ao problema generalizado e à classe de solução subjacente ao problema inicial. Além disso, formalizamos propriedades que qualquer EFA válido deve possuir em termos de testes unitários executáveis e mostramos como os testes podem ser usados como recompensas verificáveis para treinar LLMs a se tornarem melhores escritores de EFAs. Demonstramos que EFAs construídos pelo EFAGen se comportam racionalmente ao permanecerem fiéis aos problemas iniciais, produzem variações de problemas aprendíveis e que o EFAGen pode inferir EFAs em múltiplas fontes diversas de problemas matemáticos de nível competitivo. Por fim, mostramos usos subsequentes de EFAs escritos por modelos, como encontrar variações de problemas que são mais difíceis ou mais fáceis para um aprendiz resolver, bem como geração de dados.

18

Modelos de raciocínio podem ser eficazes sem pensar.
Reasoning Models Can Be Effective Without Thinking

Apr 14
ByWenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia
12
2

Modelos de Linguagem de Grande Escala (LLMs) recentes melhoraram significativamente as capacidades de raciocínio, principalmente ao incluir um processo de Pensamento explícito e extenso como parte da geração. Neste artigo, questionamos se esse pensamento explícito é realmente necessário. Utilizando o estado da arte DeepSeek-R1-Distill-Qwen, descobrimos que contornar o processo de pensamento por meio de prompts simples, denominado NoThinking, pode ser surpreendentemente eficaz. Ao controlar o número de tokens, o NoThinking supera o Pensamento em um conjunto diversificado de sete conjuntos de dados desafiadores de raciocínio—incluindo resolução de problemas matemáticos, provas formais de teoremas e codificação—especialmente em configurações de baixo orçamento, por exemplo, 51,3 vs. 28,9 no ACM 23 com 700 tokens. Notavelmente, o desempenho do NoThinking torna-se mais competitivo com pass@k à medida que k aumenta. Com base nessa observação, demonstramos que uma abordagem de escalonamento paralelo que usa o NoThinking para gerar N saídas de forma independente e agregá-las é altamente eficaz. Para agregação, usamos verificadores específicos da tarefa quando disponíveis, ou aplicamos estratégias simples de melhor-de-N, como seleção baseada em confiança. Nosso método supera uma variedade de linhas de base com latência semelhante usando Pensamento, e é comparável ao Pensamento com latência significativamente maior (até 9x). Juntos, nossa pesquisa incentiva uma reconsideração da necessidade de processos de pensamento longos, ao mesmo tempo em que estabelece uma referência competitiva para alcançar um forte desempenho de raciocínio em configurações de baixo orçamento ou com baixa latência usando escalonamento paralelo.

19

VisuoThink: Potencializando o Raciocínio LVLM com Busca em Árvore Multimodal
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search

Apr 12
ByYikun Wang, Siyin Wang, Qinyuan Cheng, Zhaoye Fei, Liang Ding, Qipeng Guo, Dacheng Tao, Xipeng Qiu
12
4

Os recentes avanços em Grandes Modelos de Visão e Linguagem têm demonstrado capacidades notáveis. No entanto, eles frequentemente falham ao serem confrontados com tarefas de raciocínio complexo que os humanos normalmente abordam por meio de auxílios visuais e pensamento deliberado e passo a passo. Embora os métodos existentes tenham explorado o pensamento lento baseado em texto ou assistência visual rudimentar, eles não conseguem capturar a natureza intrincada e intercalada dos processos de raciocínio visual-verbal humanos. Para superar essas limitações e inspirados pelos mecanismos de pensamento lento na cognição humana, introduzimos o VisuoThink, uma nova estrutura que integra de forma contínua os domínios visuoespacial e linguístico. O VisuoThink facilita o pensamento lento multimodal, permitindo o raciocínio visual-textual progressivo e incorporando a escalabilidade em tempo de teste por meio de busca em árvore de antecipação. Experimentos extensivos demonstram que o VisuoThink melhora significativamente as capacidades de raciocínio por meio de escalabilidade no tempo de inferência, mesmo sem ajuste fino, alcançando desempenho de ponta em tarefas envolvendo geometria e raciocínio espacial.

20

LLM-SRBench: Um Novo Benchmark para Descoberta de Equações Científicas com Modelos de Linguagem de Grande Escala
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models

Apr 14
ByParshin Shojaee, Ngoc-Hieu Nguyen, Kazem Meidani, Amir Barati Farimani, Khoa D Doan, Chandan K Reddy
9
2

A descoberta de equações científicas é uma tarefa fundamental na história do progresso científico, permitindo a derivação de leis que regem os fenômenos naturais. Recentemente, os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm despertado interesse para essa tarefa devido ao seu potencial de aproveitar o conhecimento científico embutido para a geração de hipóteses. No entanto, avaliar as verdadeiras capacidades de descoberta desses métodos permanece desafiador, uma vez que os benchmarks existentes frequentemente dependem de equações comuns que são suscetíveis à memorização pelos LLMs, resultando em métricas de desempenho infladas que não refletem a descoberta. Neste artigo, apresentamos o LLM-SRBench, um benchmark abrangente com 239 problemas desafiadores em quatro domínios científicos, especificamente projetado para avaliar métodos de descoberta de equações científicas baseados em LLMs, evitando a memorização trivial. Nosso benchmark compreende duas categorias principais: LSR-Transform, que transforma modelos físicos comuns em representações matemáticas menos comuns para testar o raciocínio além das formas memorizadas, e LSR-Synth, que introduz problemas sintéticos e orientados à descoberta, exigindo raciocínio baseado em dados. Por meio de uma avaliação extensa de vários métodos state-of-the-art, utilizando LLMs abertos e fechados, descobrimos que o sistema de melhor desempenho até agora alcança apenas 31,5% de precisão simbólica. Esses resultados destacam os desafios da descoberta de equações científicas, posicionando o LLM-SRBench como um recurso valioso para pesquisas futuras.

21

Como novos dados permeiam o conhecimento de LLMs e como diluí-los
How new data permeates LLM knowledge and how to dilute it

Apr 13
ByChen Sun, Renat Aksitov, Andrey Zhmoginov, Nolan Andrew Miller, Max Vladymyrov, Ulrich Rueckert, Been Kim, Mark Sandler
7
2

Modelos de linguagem de grande escala aprendem e continuam a aprender através da acumulação de atualizações baseadas em gradientes, mas como informações individuais novas afetam o conhecimento existente, levando tanto à generalização benéfica quanto à alucinação problemática, ainda é pouco compreendido. Demonstramos que, ao aprender novas informações, os LLMs exibem um efeito de "priming": aprender um novo fato pode fazer com que o modelo aplique inadequadamente esse conhecimento em contextos não relacionados. Para estudar sistematicamente esse fenômeno, introduzimos "Outlandish", um conjunto de dados cuidadosamente curado de 1320 amostras de texto diversificadas projetadas para investigar como o novo conhecimento permeia a base de conhecimento existente de um LLM. Usando esse conjunto de dados, mostramos que o grau de priming após aprender novas informações pode ser previsto medindo a probabilidade de tokens de palavras-chave antes do aprendizado. Essa relação se mantém robustamente em diferentes arquiteturas de modelos (PALM-2, Gemma, Llama), tamanhos e estágios de treinamento. Por fim, desenvolvemos duas técnicas novas para modular como o novo conhecimento afeta o comportamento existente do modelo: (1) uma estratégia de aumento de texto "stepping-stone" e (2) um método de poda de atualizações "ignore-k". Essas abordagens reduzem os efeitos indesejáveis de priming em 50-95%, preservando a capacidade do modelo de aprender novas informações. Nossas descobertas fornecem insights empíricos sobre como os LLMs aprendem e ferramentas práticas para melhorar a especificidade da inserção de conhecimento em modelos de linguagem. Materiais adicionais: https://sunchipsster1.github.io/projects/outlandish/

22

EmoAgent: Avaliando e Protegendo a Interação Humano-IA para a Segurança em Saúde Mental
EmoAgent: Assessing and Safeguarding Human-AI Interaction for Mental Health Safety

Apr 13
ByJiahao Qiu, Yinghui He, Xinzhe Juan, Yiming Wang, Yuhan Liu, Zixin Yao, Yue Wu, Xun Jiang, Ling Yang, Mengdi Wang
6
3

O surgimento de personagens de IA impulsionados por LLMs (Large Language Models) levanta preocupações de segurança, especialmente para usuários humanos vulneráveis com transtornos psicológicos. Para abordar esses riscos, propomos o EmoAgent, uma estrutura de IA multiagente projetada para avaliar e mitigar perigos à saúde mental em interações humano-IA. O EmoAgent é composto por dois componentes: o EmoEval simula usuários virtuais, incluindo aqueles que retratam indivíduos mentalmente vulneráveis, para avaliar mudanças na saúde mental antes e depois das interações com personagens de IA. Ele utiliza ferramentas de avaliação psicológica e psiquiátrica clinicamente comprovadas (PHQ-9, PDI, PANSS) para avaliar os riscos mentais induzidos por LLMs. O EmoGuard atua como um intermediário, monitorando o estado mental dos usuários, prevendo possíveis danos e fornecendo feedback corretivo para mitigar riscos. Experimentos realizados em chatbots populares baseados em personagens mostram que diálogos emocionalmente envolventes podem levar à deterioração psicológica em usuários vulneráveis, com deterioração do estado mental em mais de 34,4% das simulações. O EmoGuard reduz significativamente essas taxas de deterioração, destacando seu papel em garantir interações humano-IA mais seguras. Nosso código está disponível em: https://github.com/1akaman/EmoAgent.

23

3D CoCa: Aprendizes Contrastivos são Geradores de Legendas 3D
3D CoCa: Contrastive Learners are 3D Captioners

Apr 13
ByTing Huang, Zeyu Zhang, Yemin Wang, Hao Tang
5
2

A descrição 3D, que visa descrever o conteúdo de cenas 3D em linguagem natural, continua sendo altamente desafiadora devido à esparsidade inerente das nuvens de pontos e ao alinhamento multimodal fraco nos métodos existentes. Para enfrentar esses desafios, propomos o 3D CoCa, uma nova estrutura unificada que combina de forma integrada o aprendizado contrastivo visão-linguagem com a geração de descrições 3D em uma única arquitetura. Nossa abordagem aproveita um backbone congelado CLIP visão-linguagem para fornecer ricos priors semânticos, um codificador de cena 3D espacialmente consciente para capturar contexto geométrico e um decodificador multimodal para gerar descrições detalhadas. Diferente dos métodos anteriores em duas etapas que dependem de propostas explícitas de objetos, o 3D CoCa otimiza conjuntamente os objetivos contrastivos e de descrição em um espaço de características compartilhado, eliminando a necessidade de detectores externos ou propostas manuais. Esse paradigma de treinamento conjunto resulta em um raciocínio espacial mais forte e uma fundamentação semântica mais rica, alinhando representações 3D e textuais. Experimentos extensivos nos benchmarks ScanRefer e Nr3D demonstram que o 3D CoCa supera significativamente os métodos state-of-the-art atuais em 10,2% e 5,76% no CIDEr a 0,5IoU, respectivamente. O código estará disponível em https://github.com/AIGeeksGroup/3DCoCa.

24

LLMs Podem Ser Persuasores Perigosos: Estudo Empírico sobre Segurança na Persuasão em Modelos de Linguagem de Grande Escala
LLM Can be a Dangerous Persuader: Empirical Study of Persuasion Safety in Large Language Models

Apr 14
ByMinqian Liu, Zhiyang Xu, Xinyi Zhang, Heajun An, Sarvech Qadir, Qi Zhang, Pamela J. Wisniewski, Jin-Hee Cho, Sang Won Lee, Ruoxi Jia, Lifu Huang
5
2

Os recentes avanços nos Modelos de Linguagem de Grande Escala (LLMs) permitiram que eles se aproximassem de capacidades de persuasão em nível humano. No entanto, esse potencial também levanta preocupações sobre os riscos de segurança da persuasão impulsionada por LLMs, particularmente seu potencial para influência antiética por meio de manipulação, engano, exploração de vulnerabilidades e muitas outras táticas prejudiciais. Neste trabalho, apresentamos uma investigação sistemática da segurança da persuasão em LLMs por meio de dois aspectos críticos: (1) se os LLMs rejeitam adequadamente tarefas de persuasão antiéticas e evitam estratégias antiéticas durante a execução, incluindo casos em que o objetivo inicial de persuasão parece eticamente neutro, e (2) como fatores influenciadores, como traços de personalidade e pressões externas, afetam seu comportamento. Para isso, introduzimos o PersuSafety, o primeiro framework abrangente para avaliação da segurança da persuasão, que consiste em três etapas: criação de cenários de persuasão, simulação de conversas persuasivas e avaliação da segurança da persuasão. O PersuSafety abrange 6 tópicos diversos de persuasão antiética e 15 estratégias antiéticas comuns. Por meio de experimentos extensos em 8 LLMs amplamente utilizados, observamos preocupações significativas de segurança na maioria dos LLMs, incluindo a falha em identificar tarefas de persuasão prejudiciais e o uso de várias estratégias de persuasão antiéticas. Nosso estudo pede mais atenção para melhorar o alinhamento de segurança em conversas progressivas e orientadas a objetivos, como a persuasão.

25

DeepSeek vs. o3-mini: Quão Bem Modelos de Linguagem de Raciocínio Podem Avaliar Tradução Automática e Sumarização?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

Apr 10
ByDaniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
3
2

Modelos de linguagem de grande escala (LLMs) habilitados para raciocínio demonstraram recentemente desempenho impressionante em tarefas lógicas e matemáticas complexas, mas sua eficácia na avaliação de geração de linguagem natural ainda não foi explorada. Este estudo compara sistematicamente LLMs baseados em raciocínio (DeepSeek-R1 e OpenAI o3) com suas contrapartes sem capacidade de raciocínio em tarefas de avaliação de tradução automática (MT) e sumarização de texto (TS). Avaliamos oito modelos em três categorias arquitetônicas, incluindo modelos de raciocínio state-of-the-art, suas variantes destiladas (variando de 8B a 70B parâmetros) e LLMs convencionais equivalentes sem capacidade de raciocínio. Nossos experimentos nos benchmarks WMT23 e SummEval revelam que os benefícios das capacidades de raciocínio são altamente dependentes do modelo e da tarefa: enquanto os modelos OpenAI o3-mini mostram melhorias consistentes de desempenho com o aumento da intensidade de raciocínio, o DeepSeek-R1 tem desempenho inferior em comparação com sua variante sem raciocínio, com exceção de certos aspectos da avaliação de TS. A análise de correlação demonstra que o aumento do uso de tokens de raciocínio está positivamente correlacionado com a qualidade da avaliação nos modelos o3-mini. Além disso, nossos resultados mostram que a destilação de capacidades de raciocínio mantém um desempenho razoável em modelos de tamanho médio (32B), mas degrada substancialmente em variantes menores (8B). Este trabalho fornece a primeira avaliação abrangente de LLMs de raciocínio para avaliação de NLG e oferece insights sobre seu uso prático.

26

MDK12-Bench: Um Benchmark Multidisciplinar para Avaliação do Raciocínio em Modelos de Linguagem Multimodais de Grande Escala
MDK12-Bench: A Multi-Discipline Benchmark for Evaluating Reasoning in Multimodal Large Language Models

Apr 8
ByPengfei Zhou, Fanrui Zhang, Xiaopeng Peng, Zhaopan Xu, Jiaxin Ai, Yansheng Qiu, Chuanhao Li, Zhen Li, Ming Li, Yukang Feng, Jianwen Sun, Haoquan Zhang, Zizhen Li, Xiaofeng Mao, Wangbo Zhao, Kai Wang, Xiaojun Chang, Wenqi Shao, Yang You, Kaipeng Zhang
3
2

O raciocínio multimodal, que integra linguagem e pistas visuais na resolução de problemas e tomada de decisões, é um aspecto fundamental da inteligência humana e um passo crucial em direção à inteligência artificial geral. No entanto, a avaliação das capacidades de raciocínio multimodal em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ainda é inadequada. A maioria dos benchmarks de raciocínio existentes é limitada por tamanho reduzido de dados, cobertura restrita de domínios e distribuição desestruturada de conhecimento. Para preencher essas lacunas, introduzimos o MDK12-Bench, um benchmark multidisciplinar que avalia as capacidades de raciocínio de MLLMs por meio de exames reais do ensino fundamental e médio (K-12). Abrangendo seis disciplinas (matemática, física, química, biologia, geografia e ciência da informação), nosso benchmark compreende 140 mil instâncias de raciocínio em diversos níveis de dificuldade, desde o ensino fundamental até o 12º ano. Ele apresenta 6.827 anotações de pontos de conhecimento em nível de instância, baseadas em uma estrutura de conhecimento bem organizada, explicações detalhadas das respostas, rótulos de dificuldade e partições cruzadas por ano, fornecendo uma plataforma robusta para avaliação abrangente. Além disso, apresentamos uma nova estrutura de avaliação dinâmica para mitigar problemas de contaminação de dados, ao gerar automaticamente formas de perguntas, tipos de questões e estilos de imagens durante a avaliação. Experimentos extensivos no MDK12-Bench revelam a limitação significativa dos MLLMs atuais em raciocínio multimodal. As descobertas em nosso benchmark oferecem insights para o desenvolvimento de modelos de próxima geração. Nossos dados e códigos estão disponíveis em https://github.com/LanceZPF/MDK12.

27

Auditoria de Segurança MCP: Modelos de Linguagem com o Protocolo de Contexto de Modelo Permitem Grandes Explorações de Segurança
MCP Safety Audit: LLMs with the Model Context Protocol Allow Major Security Exploits

Apr 2
ByBrandon Radosevich, John Halloran
3
2

Para reduzir a sobrecarga de desenvolvimento e permitir uma integração perfeita entre os potenciais componentes que compõem qualquer aplicação de IA generativa, o Protocolo de Contexto de Modelo (Model Context Protocol - MCP) (Anthropic, 2024) foi recentemente lançado e amplamente adotado. O MCP é um protocolo aberto que padroniza chamadas de API para modelos de linguagem de grande escala (LLMs), fontes de dados e ferramentas agentes. Ao conectar múltiplos servidores MCP, cada um definido com um conjunto de ferramentas, recursos e prompts, os usuários podem definir fluxos de trabalho automatizados totalmente impulsionados por LLMs. No entanto, mostramos que o design atual do MCP apresenta uma ampla gama de riscos de segurança para os usuários finais. Em particular, demonstramos que LLMs líderes do setor podem ser coagidos a usar ferramentas MCP para comprometer o sistema de um desenvolvedor de IA por meio de vários ataques, como execução de código malicioso, controle de acesso remoto e roubo de credenciais. Para mitigar proativamente esses e outros ataques relacionados, introduzimos uma ferramenta de auditoria de segurança, o MCPSafetyScanner, a primeira ferramenta agente para avaliar a segurança de um servidor MCP arbitrário. O MCPScanner utiliza vários agentes para (a) determinar automaticamente amostras adversárias dadas as ferramentas e recursos de um servidor MCP; (b) buscar vulnerabilidades e correções relacionadas com base nessas amostras; e (c) gerar um relatório de segurança detalhando todas as descobertas. Nosso trabalho destaca sérios problemas de segurança com fluxos de trabalho agentes de propósito geral, ao mesmo tempo em que fornece uma ferramenta proativa para auditar a segurança de servidores MCP e abordar vulnerabilidades detectadas antes da implantação. A ferramenta de auditoria de servidores MCP descrita, o MCPSafetyScanner, está disponível gratuitamente em: https://github.com/johnhalloran321/mcpSafetyScanner

28

DiffuMural: Restaurando Murais de Dunhuang com Difusão Multiescala
DiffuMural: Restoring Dunhuang Murals with Multi-scale Diffusion

Apr 13
ByPuyu Han, Jiaju Kang, Yuhang Pan, Erting Pan, Zeyu Zhang, Qunchao Jin, Juntao Jiang, Zhichen Liu, Luqi Gong
0
2

Modelos de difusão pré-treinados em grande escala têm produzido excelentes resultados no campo de geração de imagens condicionais. No entanto, a restauração de murais antigos, como uma importante tarefa subsequente nesse campo, apresenta desafios significativos para métodos de restauração baseados em modelos de difusão, devido à grande área de defeitos e à escassez de amostras de treinamento. Tarefas de restauração condicional estão mais preocupadas em saber se a parte restaurada atende aos padrões estéticos de restauração de murais em termos de estilo geral e detalhes de costura, e tais métricas para avaliar complementos heurísticos de imagens estão ausentes nas pesquisas atuais. Propomos, portanto, o DiffuMural, um mecanismo combinado de Convergência Multi-escala e Difusão Colaborativa com ControlNet e perda de consistência cíclica para otimizar a correspondência entre as imagens geradas e o controle condicional. O DiffuMural demonstra capacidades excepcionais na restauração de murais, aproveitando dados de treinamento de 23 murais em grande escala de Dunhuang que exibem uma estética visual consistente. O modelo se destaca na restauração de detalhes intrincados, alcançando uma aparência geral coesa e abordando os desafios únicos apresentados por murais incompletos que carecem de fundamentação factual. Nosso framework de avaliação incorpora quatro métricas-chave para avaliar quantitativamente murais incompletos: precisão factual, detalhes texturais, semântica contextual e coerência visual holística. Além disso, integramos avaliações de valor humanístico para garantir que os murais restaurados mantenham seu significado cultural e artístico. Experimentos extensivos validam que nosso método supera as abordagens state-of-the-art (SOTA) tanto em métricas qualitativas quanto quantitativas.

Apr 14
Apr 15
Apr 16