Artigos de pesquisa em IA selecionados diariamente com traduções
Transcender as limitações cognitivas humanas representa uma fronteira crítica no treinamento de LLMs. Sistemas agentes proprietários como o DeepResearch demonstraram capacidades sobre-humanas em benchmarks extremamente complexos de busca de informações, como o BrowseComp, um feito anteriormente inatingível. Postulamos que o sucesso desses sistemas depende de um padrão de raciocínio sofisticado ausente em modelos de código aberto: a capacidade de reduzir sistematicamente a incerteza extrema ao navegar por vastas paisagens de informação. Com base nessa percepção, introduzimos o WebSailor, uma metodologia completa de pós-treinamento projetada para instilar essa capacidade crucial. Nossa abordagem envolve a geração de tarefas novas e de alta incerteza por meio de amostragem estruturada e ofuscação de informações, inicialização a frio com RFT (Reinforcement Fine-Tuning) e um algoritmo eficiente de treinamento RL (Reinforcement Learning) para agentes, o Duplicating Sampling Policy Optimization (DUPO). Com esse pipeline integrado, o WebSailor supera significativamente todos os agentes de código aberto em tarefas complexas de busca de informações, equiparando-se ao desempenho de agentes proprietários e reduzindo a lacuna de capacidade.
Os recentes avanços no raciocínio multimodal foram significativamente impulsionados pelo paradigma textual Chain-of-Thought (CoT), no qual os modelos realizam raciocínio dentro da linguagem. Essa abordagem centrada no texto, no entanto, trata a visão como um contexto inicial estático, criando uma "lacuna semântica" fundamental entre dados perceptivos ricos e pensamento simbólico discreto. A cognição humana frequentemente transcende a linguagem, utilizando a visão como uma prancheta mental dinâmica. Uma evolução semelhante está agora ocorrendo na IA, marcando uma mudança de paradigma fundamental de modelos que apenas pensam sobre imagens para aqueles que podem verdadeiramente pensar com imagens. Esse paradigma emergente é caracterizado por modelos que utilizam informações visuais como etapas intermediárias em seu processo de pensamento, transformando a visão de uma entrada passiva em um espaço cognitivo dinâmico e manipulável. Nesta pesquisa, mapeamos essa evolução da inteligência ao longo de uma trajetória de crescente autonomia cognitiva, que se desdobra em três estágios principais: da exploração de ferramentas externas, passando pela manipulação programática, até a imaginação intrínseca. Para estruturar esse campo em rápida evolução, nossa pesquisa faz quatro contribuições principais. (1) Estabelecemos os princípios fundamentais do paradigma de pensar com imagens e sua estrutura de três estágios. (2) Fornecemos uma revisão abrangente dos métodos centrais que caracterizam cada estágio desse roteiro. (3) Analisamos o cenário crítico de benchmarks de avaliação e aplicações transformadoras. (4) Identificamos desafios significativos e delineamos direções futuras promissoras. Ao fornecer essa visão estruturada, nosso objetivo é oferecer um roteiro claro para pesquisas futuras em direção a uma IA multimodal mais poderosa e alinhada com a cognição humana.
Recuperar estruturas 3D com compreensão de cena de vocabulário aberto a partir de imagens 2D é uma tarefa fundamental, porém desafiadora. Desenvolvimentos recentes têm alcançado isso realizando otimização por cena com informações de linguagem incorporadas. No entanto, esses métodos dependem fortemente do paradigma de reconstrução de visão densa calibrada, sofrendo com artefatos severos de renderização e síntese semântica implausível quando há visões limitadas disponíveis. Neste artigo, introduzimos um novo framework generativo, denominado LangScene-X, para unificar e gerar informações multimodais consistentes em 3D para reconstrução e compreensão. Potencializado pela capacidade generativa de criar observações novas mais consistentes, podemos construir cenas 3D generalizáveis com linguagem incorporada a partir de apenas visões esparsas. Especificamente, primeiro treinamos um modelo de difusão de vídeo TriMap que pode gerar aparência (RGBs), geometria (normais) e semântica (mapas de segmentação) a partir de entradas esparsas por meio de integração progressiva de conhecimento. Além disso, propomos um Compressor Quantizado de Linguagem (LQC), treinado em grandes conjuntos de dados de imagens, para codificar eficientemente embeddings de linguagem, permitindo generalização entre cenas sem retreinamento por cena. Por fim, reconstruímos os campos de superfície de linguagem alinhando informações de linguagem na superfície de cenas 3D, permitindo consultas de linguagem abertas. Experimentos extensivos em dados do mundo real demonstram a superioridade do nosso LangScene-X em relação aos métodos state-of-the-art em termos de qualidade e generalização. Página do Projeto: https://liuff19.github.io/LangScene-X.
Técnicas de computação em tempo de inferência, análogas ao Pensamento do Sistema 2 humano, têm se tornado recentemente populares para melhorar o desempenho dos modelos. No entanto, a maioria das abordagens existentes sofre de várias limitações: são específicas de modalidade (por exemplo, funcionando apenas com texto), específicas de problema (por exemplo, domínios verificáveis como matemática e programação) ou exigem supervisão/treinamento adicional além do pré-treinamento não supervisionado (por exemplo, verificadores ou recompensas verificáveis). Neste artigo, fazemos a pergunta: "É possível generalizar essas abordagens de Pensamento do Sistema 2 e desenvolver modelos que aprendam a pensar apenas a partir de aprendizado não supervisionado?" Curiosamente, descobrimos que a resposta é sim, aprendendo a verificar explicitamente a compatibilidade entre entradas e previsões candidatas e, em seguida, reformulando problemas de previsão como otimização em relação a esse verificador. Especificamente, treinamos Transformers Baseados em Energia (EBTs) — uma nova classe de Modelos Baseados em Energia (EBMs) — para atribuir um valor de energia a cada par de entrada e previsão candidata, permitindo previsões por meio de minimização de energia baseada em gradiente até a convergência. Em ambas as modalidades discretas (texto) e contínuas (visuais), descobrimos que os EBTs escalam mais rapidamente do que a abordagem dominante Transformer++ durante o treinamento, alcançando uma taxa de escalonamento até 35% maior em relação a dados, tamanho do lote, parâmetros, FLOPs e profundidade. Durante a inferência, os EBTs melhoram o desempenho com Pensamento do Sistema 2 em 29% a mais do que o Transformer++ em tarefas de linguagem, e os EBTs superam os Transformers de Difusão na remoção de ruído de imagens enquanto usam menos passos diretos. Além disso, descobrimos que os EBTs alcançam melhores resultados do que os modelos existentes na maioria das tarefas subsequentes, dado o mesmo ou pior desempenho de pré-treinamento, sugerindo que os EBTs generalizam melhor do que as abordagens existentes. Consequentemente, os EBTs são um novo paradigma promissor para escalar tanto as capacidades de aprendizado quanto de pensamento dos modelos.
Apesar do papel crucial dos modelos de recompensa (RMs) no aprendizado por reforço com feedback humano (RLHF), os modelos de recompensa abertos mais avançados atualmente têm um desempenho insatisfatório na maioria dos benchmarks de avaliação existentes, falhando em capturar o espectro de preferências humanas sutis e sofisticadas. Mesmo abordagens que incorporam técnicas avançadas de treinamento não resultaram em melhorias significativas de desempenho. Nossa hipótese é que essa fragilidade decorre principalmente das limitações nos conjuntos de dados de preferências, que muitas vezes têm escopo restrito, são rotulados sinteticamente ou carecem de controle de qualidade rigoroso. Para enfrentar esses desafios, apresentamos um conjunto de dados de preferências em larga escala, composto por 40 milhões de pares de preferências, denominado SynPref-40M. Para viabilizar a curadoria de dados em escala, projetamos um pipeline sinérgico humano-IA em duas etapas que aproveita as forças complementares da qualidade da anotação humana e da escalabilidade da IA. Nesse pipeline, humanos fornecem anotações verificadas, enquanto modelos de linguagem de grande porte realizam curadoria automática com base na orientação humana. Treinando com essa mistura de preferências, introduzimos o Skywork-Reward-V2, um conjunto de oito modelos de recompensa variando de 0,6B a 8B de parâmetros, treinados em um subconjunto cuidadosamente curado de 26 milhões de pares de preferências do SynPref-40M. Demonstramos que o Skywork-Reward-V2 é versátil em uma ampla gama de capacidades, incluindo alinhamento com preferências humanas, correção objetiva, segurança, resistência a vieses estilísticos e escalabilidade best-of-N, alcançando desempenho de ponta em sete benchmarks principais de modelos de recompensa. Estudos de ablação confirmam que a eficácia de nossa abordagem decorre não apenas da escala dos dados, mas também da curadoria de alta qualidade. A série Skywork-Reward-V2 representa um progresso substancial em modelos de recompensa abertos, destacando o potencial não explorado dos conjuntos de dados de preferências existentes e demonstrando como a sinergia de curadoria humano-IA pode desbloquear uma qualidade de dados significativamente maior.
Apesar dos avanços significativos nos modelos de difusão de texto para imagem, alcançar controle espacial preciso sobre as saídas geradas continua sendo um desafio. O ControlNet aborda isso ao introduzir um módulo de condicionamento auxiliar, enquanto o ControlNet++ aprimora ainda mais o alinhamento por meio de uma perda de consistência cíclica aplicada apenas às etapas finais de remoção de ruído. No entanto, essa abordagem negligencia os estágios intermediários de geração, limitando sua eficácia. Propomos o InnerControl, uma estratégia de treinamento que impõe consistência espacial em todas as etapas de difusão. Nosso método treina sondas convolucionais leves para reconstruir sinais de controle de entrada (por exemplo, bordas, profundidade) a partir de características intermediárias da UNet em cada etapa de remoção de ruído. Essas sondas extraem sinais de forma eficiente, mesmo de latentes altamente ruidosos, permitindo controles pseudo ground truth para o treinamento. Ao minimizar a discrepância entre as condições previstas e as condições alvo ao longo de todo o processo de difusão, nossa perda de alinhamento melhora tanto a fidelidade do controle quanto a qualidade da geração. Combinado com técnicas estabelecidas como o ControlNet++, o InnerControl alcança desempenho de ponta em diversos métodos de condicionamento (por exemplo, bordas, profundidade).
Apresentamos o IntFold, um modelo de base controlável para a predição de estruturas biomoleculares tanto gerais quanto especializadas. O IntFold demonstra precisão preditiva comparável ao estado da arte AlphaFold3, ao mesmo tempo que utiliza um kernel de atenção personalizado superior. Além da predição de estruturas padrão, o IntFold pode ser adaptado para prever estados alostéricos, estruturas restritas e afinidade de ligação por meio do uso de adaptadores individuais. Além disso, introduzimos um novo cabeçalho de confiança para estimar a qualidade do docking, oferecendo uma avaliação mais detalhada para alvos desafiadores, como complexos anticorpo-antígeno. Por fim, compartilhamos insights obtidos durante o processo de treinamento deste modelo computacionalmente intensivo.
Trabalhos recentes mostraram que a perda de treinamento escala como uma lei de potência tanto com o tamanho do modelo quanto com o número de tokens, e que alcançar modelos computacionalmente ótimos requer escalar o tamanho do modelo e a contagem de tokens em conjunto. No entanto, essas leis de escala assumem um suprimento infinito de dados e se aplicam principalmente em cenários limitados por computação. À medida que os modelos de linguagem grandes modernos dependem cada vez mais de conjuntos de dados massivos em escala da internet, a suposição de que eles são limitados por computação está se tornando menos válida. Essa mudança destaca a necessidade de arquiteturas que priorizem a eficiência de tokens. Neste trabalho, investigamos o uso do Transformer 2-simplicial, uma arquitetura que generaliza a atenção de produto escalar padrão para funções trilineares por meio de uma implementação eficiente de kernel Triton. Demonstramos que o Transformer 2-simplicial alcança uma eficiência de tokens melhor do que os Transformers padrão: para um orçamento fixo de tokens, modelos de tamanho semelhante superam suas contrapartes de produto escalar em tarefas envolvendo matemática, codificação, raciocínio e lógica. Quantificamos esses ganhos demonstrando que a atenção 2-simplicial altera o expoente nas leis de escala para tarefas de conhecimento e raciocínio em comparação com a atenção de produto escalar.
As necessidades complexas de informação em cenários reais de busca exigem raciocínio profundo e síntese de conhecimento a partir de diversas fontes, o que os pipelines tradicionais de geração aumentada por recuperação (RAG) têm dificuldade em abordar de forma eficaz. As abordagens baseadas em raciocínio atuais sofrem de uma limitação fundamental: elas utilizam um único modelo para lidar tanto com o planejamento de alto nível quanto com a execução detalhada, resultando em raciocínio ineficiente e escalabilidade limitada. Neste artigo, apresentamos o HiRA, uma estrutura hierárquica que separa o planejamento estratégico da execução especializada. Nossa abordagem decompõe tarefas complexas de busca em subtarefas focadas, atribui cada subtarefa a agentes específicos de domínio equipados com ferramentas externas e capacidades de raciocínio, e coordena os resultados por meio de um mecanismo estruturado de integração. Essa separação evita que detalhes de execução interrompam o raciocínio de alto nível, ao mesmo tempo em que permite que o sistema aproveite expertise especializada para diferentes tipos de processamento de informação. Experimentos em quatro benchmarks complexos de busca profunda multimodal demonstram que o HiRA supera significativamente os sistemas RAG e baseados em agentes de última geração. Nossos resultados mostram melhorias tanto na qualidade das respostas quanto na eficiência do sistema, destacando a eficácia do planejamento e execução desacoplados para tarefas de busca de informação em múltiplos passos. Nosso código está disponível em https://github.com/ignorejjj/HiRA.
A revisão por pares é fundamental para a pesquisa científica, mas o volume crescente de publicações tem intensificado os desafios desse processo que demanda expertise. Embora os LLMs (Large Language Models) mostrem potencial em várias tarefas científicas, sua capacidade de auxiliar na revisão por pares, particularmente na identificação de limitações em artigos, ainda é pouco estudada. Primeiro, apresentamos uma taxonomia abrangente de tipos de limitações na pesquisa científica, com foco em IA. Guiados por essa taxonomia, para o estudo de limitações, apresentamos o LimitGen, o primeiro benchmark abrangente para avaliar a capacidade dos LLMs de fornecer feedback em estágios iniciais e complementar a revisão por pares humana. Nosso benchmark consiste em dois subconjuntos: LimitGen-Syn, um conjunto de dados sintético cuidadosamente criado por meio de perturbações controladas de artigos de alta qualidade, e LimitGen-Human, uma coleção de limitações reais escritas por humanos. Para melhorar a capacidade dos sistemas de LLM em identificar limitações, os aprimoramos com recuperação de literatura, essencial para fundamentar a identificação de limitações em descobertas científicas anteriores. Nossa abordagem amplia a capacidade dos sistemas de LLM de gerar limitações em artigos de pesquisa, permitindo que forneçam feedback mais concreto e construtivo.
O raciocínio continua sendo uma tarefa desafiadora para grandes modelos de linguagem (LLMs), especialmente no ambiente logicamente restrito da prova automática de teoremas (ATP), devido à escassez de recompensas e à vasta escala das provas. Esses desafios são amplificados em benchmarks como o PutnamBench, que contém problemas de nível universitário que exigem raciocínio complexo e de múltiplas etapas. Para abordar isso, introduzimos MDPs condicionados a objetivos auto-gerados (sG-MDPs), um novo framework no qual os agentes geram e perseguem seus subobjetivos com base no estado evolutivo da prova. Dada essa geração mais estruturada de objetivos, o problema resultante torna-se mais passível de busca. Em seguida, aplicamos algoritmos semelhantes à Busca em Árvore de Monte Carlo (MCTS) para resolver o sG-MDP, instanciando nossa abordagem no Bourbaki (7B), um sistema modular que pode combinar múltiplos LLMs de 7B para geração de subobjetivos e síntese de táticas. No PutnamBench, o Bourbaki (7B) resolve 26 problemas, alcançando novos resultados de ponta com modelos nessa escala.
Mecanismos de atenção linear oferecem vantagens significativas para Modelos de Linguagem de Grande Escala (LLMs) ao proporcionar complexidade computacional linear, permitindo o processamento eficiente de sequências ultra-longas (por exemplo, contexto de 1M). No entanto, os métodos existentes de Paralelismo de Sequência (SP), essenciais para distribuir essas cargas de trabalho entre dispositivos, tornam-se o principal gargalo devido à sobrecarga substancial de comunicação. Neste artigo, introduzimos o ZeCO (Zero Communication Overhead) para paralelismo de sequência em modelos de atenção linear, um novo método SP projetado para superar essas limitações e alcançar escalabilidade quase linear de ponta a ponta para o treinamento de sequências longas. Por exemplo, treinar um modelo com uma sequência de 1M em 64 dispositivos usando o ZeCO leva aproximadamente o mesmo tempo que treinar com uma sequência de 16k em um único dispositivo. No cerne do ZeCO está o All-Scan, um novo primitivo de comunicação coletiva. O All-Scan fornece a cada rank SP exatamente o estado inicial do operador que ele requer, mantendo uma pegada de comunicação mínima, eliminando efetivamente a sobrecarga de comunicação. Teoricamente, provamos a otimalidade do ZeCO, mostrando que ele introduz apenas sobrecargas de tempo e espaço insignificantes. Empiricamente, comparamos os custos de comunicação de diferentes estratégias de paralelismo de sequência e demonstramos que o All-Scan alcança a comunicação mais rápida em cenários de SP. Especificamente, em 256 GPUs com uma sequência de 8M, o ZeCO alcança um aumento de velocidade de 60\% em comparação com o método SP mais avançado atualmente (SOTA). Acreditamos que o ZeCO estabelece um caminho claro para o treinamento eficiente de LLMs de próxima geração em comprimentos de sequência anteriormente intratáveis.
Embora os modelos de linguagem de grande escala (LLMs) tenham se tornado transformadores, eles ainda cometem erros e podem explorar caminhos de raciocínio improdutivos. A autocorreção é uma capacidade importante para um LLM confiável, especialmente um LLM autoregressivo. Embora os LLMs possam identificar erros na entrada do usuário, eles exibem um "Ponto Cego de Autocorreção" sistemático - falhando em corrigir erros idênticos em suas próprias saídas. Para estudar sistematicamente esse fenômeno, introduzimos o Self-Correction Bench, uma estrutura sistemática para medir esse fenômeno por meio da injeção controlada de erros em três níveis de complexidade. Testando 14 modelos, encontramos uma taxa média de ponto cego de 64,5%. Encontramos múltiplas evidências de que essa limitação está relacionada à composição dos dados de treinamento: as demonstrações de treinamento humano predominantemente mostram respostas livres de erros, em vez de sequências de correção de erros, ao contrário dos modelos treinados com RL que aprendem a correção de erros por meio de feedback de resultados. Notavelmente, simplesmente acrescentar "Espere" reduz os pontos cegos em 89,3%, sugerindo que a capacidade existe, mas requer ativação. Nosso trabalho destaca uma limitação crítica nos LLMs atuais e oferece possíveis caminhos para melhorar sua confiabilidade e confiança.
O ajuste fino supervisionado (SFT) é amplamente utilizado para alinhar modelos de linguagem de grande escala (LLMs) com tarefas de extração de informação (IE), como o reconhecimento de entidades nomeadas (NER). No entanto, anotar rótulos tão refinados e treinar modelos específicos para domínios é custoso. Trabalhos existentes geralmente treinam um modelo unificado em múltiplos domínios, mas tais abordagens carecem de adaptação e escalabilidade, já que nem todos os dados de treinamento beneficiam os domínios-alvo, e a escalabilidade dos modelos treinados continua sendo um desafio. Propomos o framework SaM, que seleciona e mescla dinamicamente modelos especialistas durante a inferência. Especificamente, para um domínio-alvo, selecionamos especialistas específicos de domínio pré-treinados em domínios existentes com base em (i) similaridade de domínio com o domínio-alvo e (ii) desempenho em instâncias amostradas, respectivamente. Os especialistas são então mesclados para criar modelos específicos para a tarefa, otimizados para o domínio-alvo. Ao mesclar dinamicamente especialistas benéficos para os domínios-alvo, melhoramos a generalização em vários domínios sem treinamento adicional. Além disso, especialistas podem ser adicionados ou removidos de forma conveniente, resultando em grande escalabilidade. Experimentos extensivos em múltiplos benchmarks demonstram a eficácia do nosso framework, que supera o modelo unificado em média em 10%. Também fornecemos insights sobre possíveis melhorias, experiência prática e extensões do nosso framework.
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se uma tecnologia fundamental na fase de pós-treinamento de modelos de linguagem de grande escala (LLMs, do inglês Large Language Models). Estruturas tradicionais de RL com tarefas colocalizadas enfrentam gargalos significativos de escalabilidade, enquanto estruturas de RL com tarefas separadas lidam com desafios em fluxos de dados complexos e a correspondente ociosidade de recursos e desequilíbrio de carga de trabalho. Além disso, a maioria das estruturas existentes está fortemente acoplada a mecanismos de treinamento ou inferência de LLMs, dificultando o suporte a mecanismos personalizados. Para abordar esses desafios, propomos o AsyncFlow, uma estrutura de RL de streaming assíncrono para pós-treinamento eficiente. Especificamente, introduzimos um módulo de armazenamento e transferência de dados distribuídos que oferece uma gestão unificada de dados e capacidade de agendamento refinada de maneira totalmente transmitida. Essa arquitetura facilita naturalmente a sobreposição automatizada de pipelines entre tarefas de RL e o balanceamento dinâmico de carga. Além disso, propomos um mecanismo de fluxo de trabalho assíncrono baseado em produtor-consumidor, projetado para minimizar a ociosidade computacional ao adiar estrategicamente o processo de atualização de parâmetros dentro de limites de defasagem. Por fim, a capacidade central do AsyncFlow é arquitetonicamente desacoplada dos mecanismos subjacentes de treinamento e inferência e encapsulada por interfaces de usuário orientadas a serviços, oferecendo uma experiência modular e personalizável. Experimentos extensivos demonstram uma melhoria média de 1,59 vezes na taxa de transferência em comparação com a linha de base mais avançada. A arquitetura apresentada neste trabalho fornece insights acionáveis para o design de sistemas de treinamento de RL de próxima geração.
A segmentação médica de múltiplos órgãos é um componente crucial do processamento de imagens médicas, essencial para que os médicos realizem diagnósticos precisos e desenvolvam planos de tratamento eficazes. Apesar dos avanços significativos nessa área, os modelos atuais de segmentação de múltiplos órgãos frequentemente apresentam detalhes imprecisos, dependência de prompts geométricos e perda de informações espaciais. Para enfrentar esses desafios, introduzimos um novo modelo chamado CRISP-SAM2, baseado em Interação Cruzada e Prompt Semântico, fundamentado no SAM2. Esse modelo representa uma abordagem promissora para a segmentação médica de múltiplos órgãos guiada por descrições textuais dos órgãos. Nosso método começa convertendo entradas visuais e textuais em semânticas contextualizadas cruzadas usando um mecanismo progressivo de interação de atenção cruzada. Essas semânticas são então injetadas no codificador de imagem para aprimorar a compreensão detalhada das informações visuais. Para eliminar a dependência de prompts geométricos, utilizamos uma estratégia de prompt semântico, substituindo o codificador de prompt original para aguçar a percepção de alvos desafiadores. Além disso, uma estratégia de auto-atualização por classificação de similaridade para memória e um processo de refinamento de máscara são aplicados para se adaptar melhor às imagens médicas e aprimorar os detalhes localizados. Experimentos comparativos realizados em sete conjuntos de dados públicos indicam que o CRISP-SAM2 supera os modelos existentes. Análises extensas também demonstram a eficácia do nosso método, confirmando seu desempenho superior, especialmente ao abordar as limitações mencionadas anteriormente. Nosso código está disponível em: https://github.com/YU-deep/CRISP\_SAM2.git.
Os recentes avanços na segmentação visão-linguagem têm impulsionado significativamente a compreensão visual fundamentada. No entanto, esses modelos frequentemente exibem alucinações ao produzir máscaras de segmentação para objetos não presentes no conteúdo da imagem ou ao rotular incorretamente regiões irrelevantes. Os protocolos de avaliação existentes para alucinações de segmentação concentram-se principalmente em alucinações de rótulos ou textuais sem manipular o contexto visual, limitando sua capacidade de diagnosticar falhas críticas. Em resposta, apresentamos o HalluSegBench, o primeiro benchmark especificamente projetado para avaliar alucinações no fundamento visual por meio do raciocínio visual contrafactual. Nosso benchmark consiste em um novo conjunto de dados de 1340 pares de instâncias contrafactuais abrangendo 281 classes de objetos únicas, e um conjunto de métricas recém-introduzidas que quantificam a sensibilidade à alucinação sob edições de cena visualmente coerentes. Experimentos no HalluSegBench com modelos de segmentação visão-linguagem de última geração revelam que alucinações impulsionadas pela visão são significativamente mais prevalentes do que as impulsionadas por rótulos, com os modelos frequentemente persistindo em segmentações falsas, destacando a necessidade de raciocínio contrafactual para diagnosticar a fidelidade do fundamento.