Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o InternVL 3.5, uma nova família de modelos multimodais de código aberto que avança significativamente em versatilidade, capacidade de raciocínio e eficiência de inferência ao longo da série InternVL. Uma inovação chave é o framework Cascade Reinforcement Learning (Cascade RL), que aprimora o raciocínio por meio de um processo em duas etapas: RL offline para convergência estável e RL online para alinhamento refinado. Essa estratégia de treinamento de grosso a fino resulta em melhorias substanciais em tarefas de raciocínio subsequentes, como MMMU e MathVista. Para otimizar a eficiência, propomos um Visual Resolution Router (ViR) que ajusta dinamicamente a resolução dos tokens visuais sem comprometer o desempenho. Aliado ao ViR, nossa estratégia Decoupled Vision-Language Deployment (DvD) separa o codificador visual e o modelo de linguagem em diferentes GPUs, equilibrando efetivamente a carga computacional. Essas contribuições permitem coletivamente que o InternVL3.5 alcance um ganho de até +16,0% no desempenho geral de raciocínio e uma aceleração de 4,05 vezes na inferência em comparação com seu predecessor, o InternVL3. Além disso, o InternVL3.5 suporta novas capacidades, como interação com GUI e agência incorporada. Notavelmente, nosso maior modelo, o InternVL3.5-241B-A28B, atinge resultados de ponta entre os MLLMs de código aberto em tarefas multimodais gerais, de raciocínio, texto e agentes — reduzindo a lacuna de desempenho com modelos comerciais líderes como o GPT-5. Todos os modelos e códigos são liberados publicamente.
Apesar dos avanços promissores dos modelos autorregressivos recentes na geração de texto para imagem (T2I), sua capacidade de lidar com prompts multi-atributos e ambíguos permanece limitada. Para abordar essas limitações, trabalhos existentes aplicaram o conceito de cadeia de pensamento (CoT) para permitir a síntese visual consciente das etapas e empregaram o aprendizado por reforço (RL) para melhorar as capacidades de raciocínio. No entanto, a maioria dos modelos fornece sinais de recompensa apenas no final da etapa de geração. Essa orientação monolítica apenas no final dificulta a identificação de quais etapas contribuem positivamente para o resultado final e pode levar a políticas subótimas. Para resolver esse problema, propomos um paradigma de Cadeia Visual de Orientação (Visual-CoG) composto por três etapas: raciocínio semântico, refinamento do processo e avaliação do resultado, com recompensas conscientes das etapas fornecendo orientação imediata ao longo do pipeline de geração de imagens. Além disso, construímos um benchmark de cognição visual, VisCog-Bench, que compreende quatro subtarefas para avaliar a eficácia do raciocínio semântico. Avaliações abrangentes no GenEval, T2I-CompBench e no proposto VisCog-Bench mostram melhorias de 15%, 5% e 19%, respectivamente, demonstrando o desempenho superior do Visual-CoG proposto. Todos os recursos serão disponibilizados em breve.
As abordagens de geração de texto-para-3D avançaram significativamente ao aproveitar priors de difusão 2D pré-treinados, produzindo saídas de alta qualidade e consistentes em 3D. No entanto, elas frequentemente falham em gerar conceitos fora do domínio (OOD) ou raros, resultando em inconsistências ou imprecisões. Para isso, propomos o MV-RAG, um novo pipeline de texto-para-3D que primeiro recupera imagens 2D relevantes de um grande banco de dados 2D do mundo real e, em seguida, condiciona um modelo de difusão multiview nessas imagens para sintetizar saídas multiview consistentes e precisas. O treinamento de tal modelo condicionado por recuperação é alcançado por meio de uma estratégia híbrida inovadora que une dados multiview estruturados e coleções diversas de imagens 2D. Isso envolve o treinamento em dados multiview usando visões de condicionamento aumentadas que simulam a variância de recuperação para reconstrução específica da visão, juntamente com o treinamento em conjuntos de imagens 2D reais recuperadas usando um objetivo distinto de previsão de visão omitida: o modelo prevê a visão omitida a partir das outras visões para inferir consistência 3D a partir de dados 2D. Para facilitar uma avaliação rigorosa de OOD, introduzimos uma nova coleção de prompts OOD desafiadores. Experimentos comparados com os melhores métodos de texto-para-3D, imagem-para-3D e personalização mostram que nossa abordagem melhora significativamente a consistência 3D, o fotorrealismo e a aderência ao texto para conceitos OOD/raros, mantendo um desempenho competitivo em benchmarks padrão.
Apresentamos o Hermes 4, uma família de modelos de raciocínio híbrido que combinam raciocínio estruturado e multi-turn com ampla capacidade de seguir instruções. Descrevemos os desafios encontrados durante a curadoria, síntese, treinamento e avaliação de dados, e delineamos as soluções empregadas para abordar esses desafios em escala. Avaliamos de forma abrangente em benchmarks de raciocínio matemático, codificação, conhecimento, compreensão e alinhamento, e relatamos tanto o desempenho quantitativo quanto a análise comportamental qualitativa. Para apoiar a pesquisa aberta, todos os pesos dos modelos são publicados publicamente em https://huggingface.co/collections/NousResearch/hermes-4-collection-68a731bfd452e20816725728.
Estudamos por que o Raciocínio Integrado com Ferramentas (TIR, na sigla em inglês) torna os Modelos de Linguagem de Grande Escala (LLMs) mais capazes. Embora os LLMs integrados com ferramentas como interpretadores de código Python mostrem grande potencial, uma teoria fundamentada que explique por que esse paradigma é eficaz tem sido ausente. Este trabalho fornece a primeira prova formal de que o TIR expande fundamentalmente as capacidades de um LLM. Demonstramos que as ferramentas permitem uma expansão estrita do suporte empírico e viável do modelo, rompendo o teto de capacidade dos modelos de texto puro ao desbloquear estratégias de resolução de problemas que, de outra forma, seriam impossíveis ou intratavelmente verbosas. Para orientar o comportamento do modelo sem comprometer a estabilidade e o desempenho do treinamento, também introduzimos o Otimização de Política com Moldagem de Vantagem (ASPO, na sigla em inglês), um algoritmo novo que modifica diretamente a função de vantagem para orientar o comportamento da política. Realizamos experimentos abrangentes em benchmarks matemáticos desafiadores, utilizando um interpretador Python como ferramenta externa. Nossos resultados mostram que o modelo TIR supera decisivamente sua contraparte de texto puro na métrica pass@k. Crucialmente, essa vantagem não se limita a problemas computacionalmente intensivos, mas se estende àqueles que exigem um insight abstrato significativo. Identificamos ainda os padrões cognitivos emergentes que ilustram como os modelos aprendem a pensar com ferramentas. Por fim, relatamos um comportamento aprimorado no uso de ferramentas com a invocação precoce de código e muito mais interações com o ASPO. No geral, nosso trabalho fornece a primeira explicação fundamentada para o sucesso do TIR, deslocando o foco do mero fato de que as ferramentas funcionam para o porquê e como elas permitem um raciocínio mais poderoso.
O raciocínio é uma capacidade fundamental dos grandes modelos de linguagem, mas compreender como eles aprendem e realizam raciocínios de múltiplos passos continua sendo um problema em aberto. Neste estudo, exploramos como diferentes arquiteturas e métodos de treinamento afetam as capacidades de raciocínio de múltiplos passos dos modelos dentro de um framework de autômatos celulares. Ao treinar em sequências de estados geradas com funções booleanas aleatórias para condições iniciais aleatórias, para excluir a memorização, demonstramos que a maioria das arquiteturas neurais aprende a abstrair as regras subjacentes. Embora os modelos atinjam alta precisão na previsão do próximo estado, seu desempenho cai drasticamente se o raciocínio de múltiplos passos for necessário. Confirmamos que o aumento da profundidade do modelo desempenha um papel crucial para cálculos sequenciais. Demonstramos que uma extensão da profundidade efetiva do modelo com recorrência, memória e escalonamento de computação em tempo de teste melhora substancialmente as capacidades de raciocínio.
Modelos Visão-Linguagem (VLMs) demonstram desempenho impressionante na compreensão de conteúdo visual com instruções linguísticas, convertendo a entrada visual em tokens visuais. No entanto, a redundância nos tokens visuais resulta em uma eficiência de inferência degradada dos VLMs. Embora muitos algoritmos tenham sido propostos para reduzir o número de tokens visuais, a maioria deles aplica apenas informações unimodais (ou seja, visão/texto) para poda e ignora a propriedade multimodal inerente das tarefas visão-linguagem. Além disso, falta um critério genérico que possa ser aplicado a diferentes modalidades. Para mitigar essa limitação, neste trabalho, propomos aproveitar tanto os tokens visuais quanto os textuais para selecionar tokens visuais informativos com base no critério de cobertura. Primeiro, formulamos o problema de seleção de subconjuntos como um problema de cobertura máxima. Em seguida, um subconjunto de tokens visuais é otimizado para cobrir os tokens textuais e o conjunto original de tokens visuais simultaneamente. Por fim, um agente VLM pode ser adotado para melhorar ainda mais a qualidade dos tokens textuais, orientando a poda visual. O método proposto, MMTok, é extensivamente avaliado em conjuntos de dados de referência com diferentes VLMs. A comparação ilustra que as informações visuais e textuais são complementares, e a combinação de informações multimodais pode superar a linha de base unimodal com uma margem clara. Além disso, sob o critério de cobertura máxima no conjunto de dados POPE, nosso método alcança uma aceleração de 1,87x enquanto mantém 98,7% do desempenho original no LLaVA-NeXT-13B. Adicionalmente, com apenas quatro tokens visuais, ele ainda preserva 87,7% do desempenho original no LLaVA-1.5-7B. Esses resultados destacam a eficácia da cobertura na seleção de tokens.
Propomos o T2I-ReasonBench, um benchmark para avaliar as capacidades de raciocínio de modelos de texto para imagem (T2I). Ele consiste em quatro dimensões: Interpretação de Expressões Idiomáticas, Design de Imagem Textual, Raciocínio sobre Entidades e Raciocínio Científico. Propomos um protocolo de avaliação em duas etapas para medir a precisão do raciocínio e a qualidade da imagem. Avaliamos diversos modelos de geração T2I e fornecemos uma análise abrangente de seus desempenhos.
Os avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) destacaram o potencial do Aprendizado por Reforço (RL) para facilitar o surgimento de capacidades de raciocínio. Apesar dos resultados encorajadores, um dilema fundamental persiste, pois a melhoria do RL depende da aprendizagem a partir de amostras de alta qualidade, mas a exploração para tais amostras permanece limitada pelas limitações inerentes dos LLMs. Isso, na prática, cria um ciclo indesejável no qual o que não pode ser explorado não pode ser aprendido. Neste trabalho, propomos o Aprendizado por Reforço com Scaffolding de Rúbrica (RuscaRL), uma nova estrutura de scaffolding instrucional projetada para romper o gargalo de exploração no raciocínio geral de LLMs. Especificamente, o RuscaRL introduz rúbricas em formato de lista de verificação como (1) scaffolding explícito para exploração durante a geração de rollouts, onde diferentes rúbricas são fornecidas como orientação externa nas instruções da tarefa para direcionar respostas diversas e de alta qualidade. Essa orientação é gradualmente reduzida ao longo do tempo, incentivando o modelo a internalizar os padrões de raciocínio subjacentes; (2) recompensas verificáveis para exploração durante o treinamento do modelo, onde podemos obter pontuações robustas de LLM-como-Juiz usando rúbricas como referência, permitindo um RL eficaz em tarefas de raciocínio geral. Experimentos extensivos demonstram a superioridade do RuscaRL proposto em vários benchmarks, expandindo efetivamente os limites do raciocínio sob a avaliação best-of-N. Notavelmente, o RuscaRL aumenta significativamente o Qwen-2.5-7B-Instruct de 23,6 para 50,3 no HealthBench-500, superando o GPT-4.1. Além disso, nossa variante ajustada no Qwen3-30B-A3B-Instruct alcança 61,1 no HealthBench-500, superando LLMs líderes, incluindo o OpenAI-o3.
Sistemas multiagentes baseados em grandes modelos de linguagem (LLMs) têm demonstrado capacidades notáveis na resolução de tarefas complexas e composicionais. Neste trabalho, aplicamos esse paradigma ao problema de geração de pôsteres a partir de artigos, um processo prático, porém demorado, enfrentado por pesquisadores que se preparam para conferências. Embora abordagens recentes tenham tentado automatizar essa tarefa, a maioria negligencia princípios fundamentais de design e estética, resultando em pôsteres que exigem refinamentos manuais substanciais. Para superar essas limitações de design, propomos o PosterGen, um framework multiagente que espelha o fluxo de trabalho de designers profissionais de pôsteres. Ele consiste em quatro agentes especializados e colaborativos: (1) os agentes Parser e Curator extraem o conteúdo do artigo e organizam o storyboard; (2) o agente Layout mapeia o conteúdo em uma estrutura espacial coerente; (3) os agentes Stylist aplicam elementos de design visual, como cores e tipografia; e (4) o Renderer compõe o pôster final. Juntos, esses agentes produzem pôsteres que são semanticamente fundamentados e visualmente atraentes. Para avaliar a qualidade do design, introduzimos uma rubrica baseada em um modelo de visão e linguagem (VLM) que mede o equilíbrio do layout, a legibilidade e a coerência estética. Resultados experimentais mostram que o PosterGen iguala consistentemente a fidelidade do conteúdo e supera significativamente os métodos existentes em design visual, gerando pôsteres prontos para apresentação com refinamentos humanos mínimos.
Os benchmarks moldam o progresso na pesquisa de IA. Um benchmark útil deve ser tanto difícil quanto realista: as perguntas devem desafiar os modelos de ponta enquanto também refletem o uso no mundo real. No entanto, os paradigmas atuais enfrentam uma tensão entre dificuldade e realismo: benchmarks no estilo de exames são frequentemente tornados artificialmente difíceis com valor limitado no mundo real, enquanto benchmarks baseados em interações reais do usuário tendem a se inclinar para problemas fáceis e de alta frequência. Neste trabalho, exploramos um paradigma radicalmente diferente: avaliar modelos em perguntas não resolvidas. Em vez de um benchmark estático pontuado uma vez, curamos perguntas não resolvidas e avaliamos modelos de forma assíncrona ao longo do tempo com triagem assistida por validadores e verificação comunitária. Introduzimos o UQ, um conjunto de testes com 500 perguntas desafiadoras e diversas obtidas do Stack Exchange, abrangendo tópicos desde teoria da computação e matemática até ficção científica e história, explorando capacidades como raciocínio, factualidade e navegação. O UQ é difícil e realista por construção: perguntas não resolvidas são frequentemente difíceis e surgem naturalmente quando os humanos buscam respostas, portanto, resolvê-las gera valor direto no mundo real. Nossas contribuições são três: (1) UQ-Dataset e seu pipeline de coleta combinando filtros baseados em regras, juízes de LLM e revisão humana para garantir a qualidade das perguntas (por exemplo, bem definidas e difíceis); (2) UQ-Validators, estratégias de validação compostas que aproveitam a lacuna entre gerador e validador para fornecer sinais de avaliação e pré-selecionar soluções candidatas para revisão humana; e (3) UQ-Platform, uma plataforma aberta onde especialistas verificam coletivamente perguntas e soluções. O modelo de ponta passa na validação do UQ em apenas 15% das perguntas, e a verificação humana preliminar já identificou respostas corretas entre aquelas que passaram. O UQ traça um caminho para avaliar modelos de ponta em desafios abertos do mundo real, onde o sucesso empurra a fronteira do conhecimento humano. Lançamos o UQ em https://uq.stanford.edu.
Os avanços recentes em grandes modelos de visão e linguagem (VLMs) têm se concentrado principalmente no inglês, com atenção limitada a outros idiomas. Para abordar essa lacuna, apresentamos MEENA (também conhecido como PersianMMMU), o primeiro conjunto de dados projetado para avaliar VLMs em persa em tarefas de compreensão científica, de raciocínio e de nível humano. Nosso conjunto de dados compreende aproximadamente 7.500 perguntas em persa e 3.000 em inglês, abrangendo uma ampla gama de tópicos, como raciocínio, matemática, física, diagramas, gráficos, e arte e literatura persa. As principais características do MEENA incluem: (1) cobertura diversificada de assuntos que abrangem vários níveis educacionais, desde o ensino fundamental até o ensino médio, (2) metadados ricos, incluindo níveis de dificuldade e respostas descritivas, (3) dados originais em persa que preservam nuances culturais, (4) uma estrutura bilíngue para avaliar o desempenho translinguístico, e (5) uma série de experimentos diversos que avaliam várias capacidades, incluindo desempenho geral, a capacidade do modelo de atender a imagens e sua tendência a gerar alucinações. Esperamos que este benchmark contribua para aprimorar as capacidades dos VLMs além do inglês.
Os tokenizadores de fala servem como componentes fundamentais para modelos de linguagem de fala, porém os designs atuais apresentam várias limitações, incluindo: 1) dependência de estruturas de quantização vetorial residual multicamadas ou altas taxas de quadros, 2) dependência de modelos pré-treinados auxiliares para destilação semântica, e 3) necessidade de processos de treinamento complexos em duas etapas. Neste trabalho, apresentamos o Text-aware Diffusion Transformer Speech Codec (TaDiCodec), uma nova abordagem projetada para superar esses desafios. O TaDiCodec emprega otimização de ponta a ponta para quantização e reconstrução por meio de um autoencoder de difusão, enquanto integra orientação textual no decodificador de difusão para melhorar a qualidade da reconstrução e alcançar compressão ideal. O TaDiCodec atinge uma taxa de quadros extremamente baixa de 6,25 Hz e uma taxa de bits correspondente de 0,0875 kbps com um codebook de camada única para fala de 24 kHz, mantendo desempenho superior em métricas críticas de avaliação de geração de fala, como Taxa de Erro de Palavras (WER), similaridade de falante (SIM) e qualidade de fala (UTMOS). Notavelmente, o TaDiCodec emprega um paradigma de treinamento de estágio único e ponta a ponta, eliminando a necessidade de modelos pré-treinados auxiliares. Também validamos a compatibilidade do TaDiCodec em síntese de fala zero-shot baseada em modelos de linguagem, tanto com modelagem autorregressiva quanto com modelagem generativa mascarada, demonstrando sua eficácia e eficiência para modelagem de linguagem de fala, bem como uma lacuna de reconstrução-geração significativamente pequena. Disponibilizaremos nosso código e checkpoints de modelo como código aberto. Amostras de áudio estão disponíveis em https://tadicodec.github.io/. Liberamos o código e os checkpoints de modelo em https://github.com/HeCheng0625/Diffusion-Speech-Tokenizer.
Tabelas semiestruturadas, amplamente utilizadas em aplicações do mundo real (por exemplo, relatórios financeiros, registros médicos, ordens transacionais), frequentemente envolvem layouts flexíveis e complexos (por exemplo, cabeçalhos hierárquicos e células mescladas). Essas tabelas geralmente dependem de analistas humanos para interpretar os layouts das tabelas e responder a perguntas relevantes em linguagem natural, o que é custoso e ineficiente. Para automatizar o procedimento, os métodos existentes enfrentam desafios significativos. Primeiro, métodos como NL2SQL exigem a conversão de tabelas semiestruturadas em tabelas estruturadas, o que frequentemente causa uma perda substancial de informação. Segundo, métodos como NL2Code e QA com LLM multimodal lutam para entender os layouts complexos de tabelas semiestruturadas e não conseguem responder com precisão às perguntas correspondentes. Para isso, propomos o ST-Raptor, um framework baseado em árvore para resposta a perguntas em tabelas semiestruturadas usando modelos de linguagem grandes (LLMs). Primeiro, introduzimos a Árvore Hierárquica Ortogonal (HO-Tree), um modelo estrutural que captura layouts complexos de tabelas semiestruturadas, juntamente com um algoritmo eficaz para construir a árvore. Segundo, definimos um conjunto de operações básicas de árvore para orientar os LLMs na execução de tarefas comuns de QA. Dada uma pergunta do usuário, o ST-Raptor a decompõe em subperguntas mais simples, gera pipelines de operações de árvore correspondentes e realiza o alinhamento operação-tabela para uma execução precisa do pipeline. Terceiro, incorporamos um mecanismo de verificação em duas etapas: a validação direta verifica a correção das etapas de execução, enquanto a validação reversa avalia a confiabilidade da resposta reconstruindo consultas a partir das respostas previstas. Para avaliar o desempenho, apresentamos o SSTQA, um conjunto de dados com 764 perguntas sobre 102 tabelas semiestruturadas do mundo real. Os experimentos mostram que o ST-Raptor supera nove baselines em até 20% na precisão das respostas. O código está disponível em https://github.com/weAIDB/ST-Raptor.
A avaliação de sistemas de geração de linguagem natural (NLG) continua sendo um desafio central no processamento de linguagem natural (NLP), ainda mais complicado pelo surgimento de grandes modelos de linguagem (LLMs) que visam ser de propósito geral. Recentemente, grandes modelos de linguagem como juízes (LLJs) surgiram como uma alternativa promissora às métricas tradicionais, mas sua validade ainda é pouco explorada. Este artigo de posicionamento argumenta que o entusiasmo atual em torno dos LLJs pode ser prematuro, uma vez que sua adoção superou o escrutínio rigoroso de sua confiabilidade e validade como avaliadores. Com base na teoria da medição das ciências sociais, identificamos e avaliamos criticamente quatro pressupostos fundamentais subjacentes ao uso de LLJs: sua capacidade de atuar como substitutos para o julgamento humano, suas habilidades como avaliadores, sua escalabilidade e sua relação custo-benefício. Examinamos como cada um desses pressupostos pode ser desafiado pelas limitações inerentes dos LLMs, LLJs ou pelas práticas atuais de avaliação de NLG. Para fundamentar nossa análise, exploramos três aplicações dos LLJs: sumarização de texto, anotação de dados e alinhamento de segurança. Por fim, destacamos a necessidade de práticas de avaliação mais responsáveis na avaliação de LLJs, para garantir que seu papel crescente no campo apoie, em vez de prejudicar, o progresso em NLG.
Este artigo investiga as limitações da normalização em mecanismos de atenção. Começamos com um framework teórico que permite a identificação da capacidade seletiva do modelo e da separação geométrica envolvida na seleção de tokens. Nossa análise inclui limites explícitos sobre distâncias e critérios de separação para vetores de tokens sob escalonamento softmax. Por meio de experimentos com o modelo GPT-2 pré-treinado, validamos empiricamente nossos resultados teóricos e analisamos comportamentos-chave do mecanismo de atenção. Notavelmente, demonstramos que, à medida que o número de tokens selecionados aumenta, a capacidade do modelo de distinguir tokens informativos diminui, frequentemente convergindo para um padrão de seleção uniforme. Também mostramos que a sensibilidade do gradiente sob normalização softmax apresenta desafios durante o treinamento, especialmente em configurações de baixa temperatura. Essas descobertas avançam o entendimento atual do mecanismo de atenção baseado em softmax e motivam a necessidade de estratégias de normalização e seleção mais robustas em futuras arquiteturas de atenção.
A reconstrução de superfícies tem sido amplamente estudada em visão computacional e gráficos. No entanto, os trabalhos existentes de reconstrução de superfícies enfrentam dificuldades para recuperar a geometria precisa da cena quando as visualizações de entrada são extremamente esparsas. Para resolver esse problema, propomos o MeshSplat, uma estrutura generalizável de reconstrução de superfícies com visualizações esparsas via Gaussian Splatting. Nossa ideia principal é utilizar o 2DGS como uma ponte, que conecta a síntese de novas visualizações a priors geométricos aprendidos e, em seguida, transfere esses priors para alcançar a reconstrução da superfície. Especificamente, incorporamos uma rede feed-forward para prever 2DGS alinhados por pixel em cada visualização, o que permite à rede sintetizar imagens de novas visualizações e, assim, elimina a necessidade de supervisão direta com ground-truth 3D. Para melhorar a precisão da previsão de posição e orientação do 2DGS, propomos uma Perda de Distância de Chamfer Ponderada para regularizar os mapas de profundidade, especialmente em áreas sobrepostas das visualizações de entrada, e também uma rede de previsão de normais para alinhar a orientação do 2DGS com vetores normais previstos por um estimador de normais monoculares. Experimentos extensivos validam a eficácia de nossas melhorias propostas, demonstrando que nosso método alcança desempenho de ponta em tarefas generalizáveis de reconstrução de malhas com visualizações esparsas. Página do Projeto: https://hanzhichang.github.io/meshsplat_web
O raciocínio visual composicional emergiu como uma fronteira-chave de pesquisa na IA multimodal, visando dotar as máquinas da capacidade semelhante à humana de decompor cenas visuais, fundamentar conceitos intermediários e realizar inferências lógicas de múltiplos passos. Enquanto os primeiros estudos se concentram em modelos monolíticos de visão e linguagem ou no raciocínio multimodal geral, ainda falta uma síntese dedicada da literatura em rápida expansão sobre raciocínio visual composicional. Preenchemos essa lacuna com um estudo abrangente que abrange de 2023 a 2025, revisando sistematicamente mais de 260 artigos de principais conferências (CVPR, ICCV, NeurIPS, ICML, ACL, etc.). Primeiro, formalizamos definições centrais e descrevemos por que as abordagens composicionais oferecem vantagens em alinhamento cognitivo, fidelidade semântica, robustez, interpretabilidade e eficiência de dados. Em seguida, traçamos uma mudança de paradigma em cinco estágios: desde pipelines centrados em linguagem aprimorados por prompts, passando por LLMs e VLMs aprimorados por ferramentas, até o recente raciocínio em cadeia de pensamento e VLMs agentes unificados, destacando seus designs arquitetônicos, pontos fortes e limitações. Depois, catalogamos mais de 60 benchmarks e métricas correspondentes que investigam o raciocínio visual composicional em dimensões como precisão de fundamentação, fidelidade da cadeia de pensamento e percepção de alta resolução. Com base nessas análises, destilamos insights-chave, identificamos desafios em aberto (por exemplo, limitações do raciocínio baseado em LLMs, alucinação, viés em direção ao raciocínio dedutivo, supervisão escalável, integração de ferramentas e limitações dos benchmarks) e delineamos direções futuras, incluindo integração de modelos de mundo, raciocínio colaborativo humano-IA e protocolos de avaliação mais ricos. Ao oferecer uma taxonomia unificada, um roteiro histórico e uma perspectiva crítica, este estudo visa servir como uma referência fundamental e inspirar a próxima geração de pesquisas em raciocínio visual composicional.
A edição de imagens guiada visualmente, onde as edições são condicionadas tanto por pistas visuais quanto por prompts textuais, emergiu como um paradigma poderoso para a geração de conteúdo controlada e de alta granularidade. Embora os modelos generativos recentes tenham demonstrado capacidades notáveis, as avaliações existentes permanecem simples e insuficientemente representativas dos desafios de edição do mundo real. Apresentamos o SpotEdit, um benchmark abrangente projetado para avaliar sistematicamente métodos de edição de imagens guiada visualmente em diversos modelos generativos, incluindo difusão, autoregressivos e híbridos, revelando disparidades substanciais de desempenho. Para abordar um desafio crítico e ainda pouco explorado, nosso benchmark inclui um componente dedicado à alucinação, destacando como modelos líderes, como o GPT-4o, frequentemente alucinam a existência de uma pista visual e realizam erroneamente a tarefa de edição. Nosso código e benchmark são disponibilizados publicamente em https://github.com/SaraGhazanfari/SpotEdit.
A capacidade de parafrasear textos em diferentes níveis de complexidade é essencial para criar textos acessíveis que possam ser adaptados a diversos grupos de leitores. Assim, apresentamos o German4All, o primeiro conjunto de dados em larga escala em alemão de paráfrases alinhadas e controladas por legibilidade em nível de parágrafo. Ele abrange cinco níveis de legibilidade e compreende mais de 25.000 amostras. O conjunto de dados é sintetizado automaticamente usando o GPT-4 e rigorosamente avaliado por meio de julgamentos humanos e baseados em LLMs. Utilizando o German4All, treinamos um modelo de paráfrase controlado por legibilidade de código aberto que alcança desempenho de ponta em simplificação de textos em alemão, permitindo adaptações mais refinadas e específicas para o leitor. Disponibilizamos tanto o conjunto de dados quanto o modelo em código aberto para incentivar mais pesquisas sobre paráfrases em múltiplos níveis.
A ecocardiografia desempenha um papel central na imagem cardíaca, oferecendo visões dinâmicas do coração que são essenciais para diagnóstico e monitoramento. No entanto, a qualidade da imagem pode ser significativamente degradada por névoa resultante de reverberações de múltiplos caminhos, especialmente em pacientes difíceis de serem imageados. Neste trabalho, propomos um algoritmo de remoção de névoa baseado em difusão e guiado semanticamente, desenvolvido para o MICCAI Dehazing Echocardiography Challenge (DehazingEcho2025). Nosso método integra um modelo de ruído pixel a pixel, derivado da segmentação semântica de entradas nebulosas, em um framework de amostragem posterior de difusão guiado por um prior generativo treinado em dados de ultrassom limpos. A avaliação quantitativa no conjunto de dados do desafio demonstra um forte desempenho em métricas de contraste e fidelidade. O código do algoritmo submetido está disponível em https://github.com/tristan-deep/semantic-diffusion-echo-dehazing.
Trabalhos anteriores demonstraram que a pressuposição em perguntas geradas pode introduzir suposições não verificadas, levando a inconsistências na verificação de afirmações. Além disso, a sensibilidade a prompts continua sendo um desafio significativo para grandes modelos de linguagem (LLMs), resultando em uma variação de desempenho de até 3-6%. Embora avanços recentes tenham reduzido essa lacuna, nosso estudo mostra que a sensibilidade a prompts permanece um problema persistente. Para abordar isso, propomos uma estrutura estruturada e robusta de verificação de afirmações que raciocina por meio de perguntas decompostas e livres de pressuposição. Experimentos extensos em múltiplos prompts, conjuntos de dados e LLMs revelam que até mesmo os modelos mais avançados permanecem suscetíveis à variação de prompts e à pressuposição. Nosso método mitiga consistentemente esses problemas, alcançando uma melhoria de até 2-5%.
O fotorrealismo é um aspecto importante dos videogames modernos, pois pode moldar a experiência do jogador e, simultaneamente, impactar a imersão, o engajamento narrativo e a fidelidade visual. Embora avanços tecnológicos recentes em hardware, juntamente com tecnologias de renderização de ponta, tenham melhorado significativamente o realismo visual dos videogames, alcançar o verdadeiro fotorrealismo em ambientes dinâmicos com taxas de quadros em tempo real ainda permanece um grande desafio devido à relação de compromisso entre qualidade visual e desempenho. Neste breve artigo, apresentamos uma nova abordagem para aprimorar o fotorrealismo de quadros renderizados de jogos usando redes generativas adversariais. Para isso, propomos o Real-time Photorealism Enhancement in Games via a dual-stage gEnerative Network framework (REGEN), que emprega um modelo robusto de tradução de imagem para imagem não pareadas para produzir quadros fotorrealistas semanticamente consistentes, transformando o problema em uma tarefa mais simples de tradução de imagem para imagem pareadas. Isso permite o treinamento com um método leve que pode alcançar tempo de inferência em tempo real sem comprometer a qualidade visual. Demonstramos a eficácia de nosso framework no Grand Theft Auto V, mostrando que a abordagem alcança resultados visuais comparáveis aos produzidos pelo método robusto de Im2Im não pareado, enquanto melhora a velocidade de inferência em 32,14 vezes. Nossos achados também indicam que os resultados superam os quadros aprimorados com fotorrealismo produzidos ao treinar diretamente um método leve de tradução Im2Im não pareado para traduzir os quadros do videogame em direção às características visuais de imagens do mundo real. Código, modelos pré-treinados e demonstrações deste trabalho estão disponíveis em: https://github.com/stefanos50/REGEN.