Artigos de pesquisa em IA selecionados diariamente com traduções
O Sparse-Linear Attention (SLA) combina atenção esparsa e linear para acelerar modelos de difusão e tem demonstrado um desempenho robusto na geração de vídeos. No entanto, (i) o SLA depende de uma divisão heurística que atribui os cálculos ao ramo esparso ou linear com base na magnitude dos pesos de atenção, o que pode ser subótimo. Adicionalmente, (ii) após uma análise formal do erro de atenção no SLA, identificamos uma incompatibilidade entre o SLA e uma decomposição direta em atenção esparsa e linear. Propomos o SLA2, que introduz (I) um roteador aprendível que seleciona dinamicamente se cada cálculo de atenção deve usar atenção esparsa ou linear, (II) uma formulação de atenção esparsa-linear mais fiel e direta, que utiliza um rácio aprendível para combinar os ramos de atenção esparsa e linear, e (III) um desenho de atenção esparsa + baixos bits, onde a atenção de baixos bits é introduzida através de *fine-tuning* com consciência da quantização para reduzir o erro de quantização. Experiências mostram que, em modelos de difusão de vídeo, o SLA2 pode alcançar 97% de esparsidade de atenção e proporcionar uma aceleração de 18,6x na atenção, preservando a qualidade da geração.
O desempenho dos agentes autónomos de interface gráfica web (GUI) depende fortemente da qualidade e quantidade dos seus dados de treino. No entanto, persiste um estrangulamento fundamental: a recolha de trajetórias de interação a partir de websites do mundo real é dispendiosa e difícil de verificar. As transições de estado subjacentes estão ocultas, levando à dependência de verificadores externos inconsistentes e dispendiosos para avaliar a correção a nível de cada passo. Para resolver isto, propomos o AutoWebWorld, uma nova estrutura para sintetizar ambientes web controláveis e verificáveis, modelando-os como Máquinas de Estados Finitos (FSMs) e utilizando agentes de programação para traduzir as FSMs em websites interativos. Ao contrário dos websites reais, onde as transições de estado são implícitas, o AutoWebWorld define explicitamente todos os estados, ações e regras de transição. Isto permite uma verificação programática: a correção das ações é verificada face a regras predefinidas, e o sucesso da tarefa é confirmado através da chegada a um estado objetivo no grafo da FSM. O AutoWebWorld permite um *pipeline* automatizado de pesquisa e verificação, gerando mais de 11.663 trajetórias verificadas a partir de 29 ambientes web diversos a um custo de apenas 0,04 dólares por trajetória. O treino com estes dados sintéticos aumenta significativamente o desempenho no mundo real. O nosso agente Web GUI de 7B supera todas as linhas de base dentro de 15 passos no WebVoyager. Além disso, observamos uma lei de escalonamento clara: à medida que o volume de dados sintéticos aumenta, o desempenho no WebVoyager e no Online-Mind2Web melhora consistentemente.
Apesar dos rápidos avanços nos modelos de base multimodais, a comunidade de inteligência incorporada ainda carece de um modelo de base unificado e fisicamente fundamentado que integre percepção, raciocínio e planeamento dentro das dinâmicas espaço-temporais do mundo real. Apresentamos o RynnBrain, um modelo de base espaço-temporal de código aberto para inteligência incorporada. O RynnBrain fortalece quatro capacidades centrais numa estrutura unificada: compreensão egocêntrica abrangente, localização espaço-temporal diversificada, raciocínio fisicamente fundamentado e planeamento com consciência física. A família RynnBrain é composta por três escalas de modelo de base (2B, 8B e 30B-A3B MoE) e quatro variantes pós-treinadas adaptadas para tarefas incorporadas a jusante (ou seja, RynnBrain-Nav, RynnBrain-Plan e RynnBrain-VLA) ou para tarefas complexas de raciocínio espacial (ou seja, RynnBrain-CoP). Em termos de avaliações extensivas em 20 benchmarks de inteligência incorporada e 8 benchmarks gerais de compreensão visual, os nossos modelos de base RynnBrain superam largamente os modelos de base incorporados existentes por uma margem significativa. O conjunto de modelos pós-treinados substantiva ainda mais dois potenciais-chave do modelo de base RynnBrain: (i) permitir raciocínio e planeamento fisicamente fundamentados, e (ii) servir como uma forte espinha dorsal pré-treinada que pode ser adaptada de forma eficiente a diversas tarefas incorporadas.
O Design Assistido por Computador (CAD) oferece modelagem rápida e editável para engenharia e manufatura. Os recentes avanços em IA tornam agora viável a automação completa para várias tarefas de CAD. No entanto, o progresso é limitado pelos dados: os corpora públicos contêm principalmente sequências de esboço-extrusão, carecem de operações complexas, composição multioperação e intenção de design, dificultando assim um *fine-tuning* eficaz. Tentativas de contornar isso com VLMs (*Vision-Language Models*) congelados frequentemente produzem programas simples ou inválidos devido à compreensão limitada de modelos de base sobre geometria 3D. Apresentamos o CADEvolve, um *pipeline* e conjunto de dados baseado em evolução que começa com primitivas simples e, por meio de edições e validações guiadas por VLM, cresce incrementalmente programas de CAD em direção à complexidade de nível industrial. O resultado são 8 mil peças complexas expressas como geradores paramétricos executáveis em CadQuery. Após um pós-processamento e aumento de dados em múltiplas etapas, obtemos um conjunto de dados unificado de 1,3 milhão de scripts pareados com geometria renderizada e que exercitam todo o conjunto de operações do CadQuery. Um VLM submetido a *fine-tuning* no CADEvolve alcança resultados de última geração na tarefa Image2CAD através dos *benchmarks* DeepCAD, Fusion 360 e MCB.
A locomanipulação visual de objetos arbitrários em ambientes não controlados com robôs humanoides requer controle preciso do efetuador final (EE) e uma compreensão generalizável da cena por meio de entradas visuais (por exemplo, imagens RGB-D). As abordagens existentes baseiam-se em aprendizagem por imitação no mundo real e exibem generalização limitada devido à dificuldade em recolher conjuntos de dados de treino em larga escala. Este artigo apresenta um novo paradigma, HERO, para locomanipulação de objetos com robôs humanoides que combina a forte generalização e compreensão de vocabulário aberto de grandes modelos de visão com o forte desempenho de controlo proveniente do treino em simulação. Conseguimos isto através do desenho de uma política de rastreamento do EE precisa e consciente dos resíduos. Esta política de rastreamento do EE combina robótica clássica com aprendizagem automática. Ela utiliza a) cinemática inversa para converter objetivos residuais do efetuador final em trajetórias de referência, b) um modelo direto neural aprendido para cinemática direta precisa, c) ajuste de objetivos, e d) replaneamento. Juntas, estas inovações ajudam-nos a reduzir o erro de rastreamento do efetuador final em 3,2 vezes. Utilizamos este rastreador preciso do efetuador final para construir um sistema modular para locomanipulação, onde usamos grandes modelos de visão de vocabulário aberto para uma forte generalização visual. O nosso sistema é capaz de operar em diversos ambientes do mundo real, desde escritórios a cafés, onde o robô é capaz de manipular de forma fiável vários objetos do quotidiano (por exemplo, canecas, maçãs, brinquedos) em superfícies com alturas que variam entre 43cm e 92cm. Testes sistemáticos modulares e de ponta a ponta em simulação e no mundo real demonstram a eficácia do nosso desenho proposto. Acreditamos que os avanços neste artigo podem abrir novas formas de treinar robôs humanoides para interagir com objetos do dia a dia.
A obtenção de cooperação entre agentes interessados em si próprios continua a ser um desafio fundamental no aprendizado por reforço multiagente. Trabalhos recentes demonstraram que a cooperação mútua pode ser induzida entre agentes "conscientes da aprendizagem" que consideram e moldam a dinâmica de aprendizagem dos seus co-participantes. No entanto, as abordagens existentes geralmente dependem de pressupostos pré-definidos, muitas vezes inconsistentes, sobre as regras de aprendizagem dos co-participantes ou impõem uma separação estrita entre "aprendizes ingénuos", que atualizam em escalas de tempo rápidas, e "meta-aprendizes" que observam essas atualizações. Aqui, demonstramos que as capacidades de aprendizagem em contexto dos modelos de sequência permitem a consciência da aprendizagem do co-participante sem exigir pressupostos pré-definidos ou uma separação explícita de escalas de tempo. Mostramos que o treino de agentes de modelo de sequência contra uma distribuição diversificada de co-participantes induz naturalmente estratégias de melhor resposta em contexto, funcionando efetivamente como algoritmos de aprendizagem na escala de tempo rápida intra-episódio. Verificamos que o mecanismo cooperativo identificado em trabalhos anteriores — no qual a vulnerabilidade à extorsão impulsiona a moldagem mútua — emerge naturalmente neste contexto: a adaptação em contexto torna os agentes vulneráveis à extorsão, e a pressão mútua resultante para moldar a dinâmica de aprendizagem em contexto do oponente resolve-se na aprendizagem de comportamentos cooperativos. Os nossos resultados sugerem que o aprendizado por reforço descentralizado padrão em modelos de sequência, combinado com a diversidade de co-participantes, oferece um caminho escalável para a aprendizagem de comportamentos cooperativos.
Apresentamos o Massive Audio Embedding Benchmark (MAEB), um benchmark de larga escala que abrange 30 tarefas em áreas como fala, música, sons ambientais e raciocínio áudio-texto multimodal em mais de 100 idiomas. Avaliamos mais de 50 modelos e constatamos que nenhum modelo único domina todas as tarefas: modelos contrastivos de áudio-texto destacam-se na classificação de sons ambientais (por exemplo, ESC50), mas obtêm pontuações próximas ao acaso em tarefas de fala multilingue (por exemplo, SIB-FLEURS), enquanto modelos pré-treinados em fala mostram o padrão oposto. A tarefa de *clustering* permanece desafiadora para todos os modelos, com mesmo o melhor desempenho alcançando apenas resultados modestos. Observamos que modelos com excelente desempenho em compreensão acústica frequentemente têm desempenho fraco em tarefas linguísticas, e vice-versa. Também demonstramos que o desempenho de codificadores de áudio no MAEB correlaciona-se fortemente com seu desempenho quando utilizados em modelos de linguagem de grande escala para áudio. O MAEB é derivado do MAEB+, uma coleção de 98 tarefas. O MAEB foi concebido para manter a diversidade de tarefas enquanto reduz o custo de avaliação, e integra-se no ecossistema MTEB para avaliação unificada entre as modalidades texto, imagem e áudio. Disponibilizamos o MAEB e todas as 98 tarefas, juntamente com código e um *leaderboard*, em https://github.com/embeddings-benchmark/mteb.
As avaliações padrão de factualidade de LLMs tratam todos os erros da mesma forma, obscurecendo se as falhas surgem de conhecimento ausente (prateleiras vazias) ou de acesso limitado a fatos codificados (chaves perdidas). Propomos uma estrutura comportamental que perfila o conhecimento factual ao nível dos fatos, e não das perguntas, caracterizando cada fato por se está codificado e, em seguida, por quão acessível ele é: não pode ser recordado, pode ser recordado diretamente ou só pode ser recordado com computação em tempo de inferência (pensamento). Para suportar tal perfilamento, introduzimos o WikiProfile, um novo benchmark construído através de um pipeline automatizado com um LLM instruído (prompted) ancorado em buscas na web. Através de 4 milhões de respostas de 13 LLMs, descobrimos que a codificação está quase saturada nos modelos de fronteira em nosso benchmark, com GPT-4 e Gemini Ultra codificando 95–98% dos fatos. No entanto, a recordação permanece um grande gargalo: muitos erros anteriormente atribuídos a conhecimento ausente, na verdade, decorrem de falhas em acessá-lo. Essas falhas são sistemáticas e afetam desproporcionalmente fatos de cauda longa e perguntas reversas. Por fim, mostramos que o pensamento melhora a recordação e pode recuperar uma fração substancial das falhas, indicando que ganhos futuros podem depender menos de escalonamento (scaling) e mais de métodos que melhorem como os modelos utilizam o que já codificam.
Os agentes de IA estão sendo cada vez mais implantados para executar tarefas importantes. Embora o aumento das pontuações de precisão em benchmarks padrão sugira progresso rápido, muitos agentes ainda continuam a falhar na prática. Essa discrepância evidencia uma limitação fundamental das avaliações atuais: comprimir o comportamento do agente em uma única métrica de sucesso oculta falhas operacionais críticas. Notavelmente, ignora-se se os agentes se comportam de forma consistente entre execuções, resistem a perturbações, falham de maneira previsível ou possuem gravidade de erro limitada. Fundamentado na engenharia de segurança crítica, fornecemos um perfil de desempenho holístico propondo doze métricas concretas que decompõem a confiabilidade do agente ao longo de quatro dimensões principais: consistência, robustez, previsibilidade e segurança. Avaliando 14 modelos agentes em dois benchmarks complementares, descobrimos que os recentes ganhos de capacidade produziram apenas pequenas melhorias na confiabilidade. Ao expor essas limitações persistentes, nossas métricas complementam as avaliações tradicionais, oferecendo ferramentas para analisar como os agentes atuam, degradam-se e falham.
Os modelos de última geração Vision-Language-Action (VLA) destacam-se na generalização semântica, mas têm dificuldade em generalizar para movimentos físicos não vistos em ambientes novos. Apresentamos o DreamZero, um Modelo de Ação Mundial (WAM) construído sobre uma base de difusão de vídeo pré-treinada. Ao contrário dos VLAs, os WAMs aprendem dinâmicas físicas prevendo estados e ações futuras do mundo, utilizando o vídeo como uma representação densa de como o mundo evolui. Ao modelar conjuntamente vídeo e ação, o DreamZero aprende habilidades diversas de forma eficaz a partir de dados robóticos heterogéneos, sem depender de demonstrações repetitivas. Isto resulta numa melhoria superior a 2x na generalização para novas tarefas e ambientes em comparação com VLAs de última geração em experiências com robôs reais. Crucialmente, através de otimizações de modelo e sistema, permitimos que um modelo autoregressivo de difusão de vídeo de 14B realize controlo em circuito fechado em tempo real a 7Hz. Por fim, demonstramos duas formas de transferência de encarnação cruzada: demonstrações apenas em vídeo de outros robôs ou humanos produzem uma melhoria relativa de mais de 42% no desempenho de tarefas não vistas com apenas 10-20 minutos de dados. Mais surpreendentemente, o DreamZero permite uma adaptação de encarnação de poucos exemplos, transferindo para uma nova encarnação com apenas 30 minutos de dados de "brincadeira", mantendo ao mesmo tempo a generalização de disparo zero.
As arquiteturas de pesos rápidos oferecem uma alternativa promissora aos transformadores baseados em atenção para a modelagem de contexto longo, mantendo uma sobrecarga de memória constante independentemente do comprimento do contexto. No entanto, seu potencial é limitado pelo paradigma de treinamento de previsão do próximo token (NTP). O NTP otimiza previsões de token único e ignora a coerência semântica entre múltiplos tokens após um prefixo. Consequentemente, os modelos de pesos rápidos, que atualizam dinamicamente seus parâmetros para armazenar informações contextuais, aprendem representações subótimas que falham em capturar dependências de longo alcance. Apresentamos o REFINE (Pesos Rápidos Reforçados com Previsão de Próxima Sequência), uma estrutura de aprendizagem por reforço que treina modelos de pesos rápidos sob o objetivo de previsão da próxima sequência (NSP). O REFINE seleciona posições de token informativas com base na entropia da previsão, gera rollouts de múltiplos tokens, atribui recompensas autossupervisionadas a nível de sequência e otimiza o modelo com otimização de política relativa de grupo (GRPO). O REFINE é aplicável em todo o ciclo de vida de treinamento de modelos de linguagem pré-treinados: durante o treinamento, pós-treinamento e treinamento no momento do teste. Nossos experimentos com LaCT-760M e DeltaNet-1.3B demonstram que o REFINE supera consistentemente o ajuste fino supervisionado com NTP em tarefas de recuperação "agulha no palheiro", questionamento e resposta em contexto longo e diversas tarefas no LongBench. O REFINE fornece uma estrutura eficaz e versátil para melhorar a modelagem de contexto longo em arquiteturas de pesos rápidos.
Apresentamos o SAM 3D Body (3DB), um modelo "promptável" para a recuperação de malha humana 3D de corpo inteiro a partir de uma única imagem, que demonstra desempenho de última geração, com forte generalização e precisão consistente em diversas condições do mundo real. O 3DB estima a pose humana do corpo, pés e mãos. É o primeiro modelo a utilizar uma nova representação paramétrica de malha, o Momentum Human Rig (MHR), que desacopla a estrutura esquelética da forma da superfície. O 3DB emprega uma arquitetura codificador-decodificador e suporta *prompts* auxiliares, incluindo *keypoints* 2D e máscaras, permitindo uma inferência guiada pelo usuário, semelhante à família de modelos SAM. Derivamos anotações de alta qualidade de um *pipeline* de anotação em múltiplos estágios que utiliza várias combinações de anotação manual de *keypoints*, otimização diferenciável, geometria multi-visada e detecção densa de *keypoints*. Nosso motor de dados seleciona e processa dados de forma eficiente para garantir a diversidade dos dados, coletando poses incomuns e condições de imagem raras. Apresentamos um novo conjunto de dados de avaliação organizado por categorias de pose e aparência, permitindo uma análise nuances do comportamento do modelo. Nossos experimentos demonstram uma generalização superior e melhorias substanciais em relação a métodos anteriores, tanto em estudos qualitativos de preferência do usuário quanto na análise quantitativa tradicional. Tanto o 3DB quanto o MHR são de código aberto.
A Destilação por Correspondência de Distribuição (DMD) é um paradigma de aceleração poderoso, mas sua estabilidade é frequentemente comprometida na Zona Proibida, regiões onde o professor real fornece orientação não confiável enquanto o professor falso exerce uma força repulsiva insuficiente. Neste trabalho, propomos uma estrutura de otimização unificada que reinterpreta trabalhos anteriores como estratégias implícitas para evitar essas regiões corrompidas. Com base nessa percepção, introduzimos a Destilação por Correspondência Adaptativa (AMD), um mecanismo de autocorreção que utiliza *proxies* de recompensa para detectar e escapar explicitamente das Zonas Proibidas. A AMD prioriza dinamicamente gradientes corretivos via decomposição de sinal estrutural e introduz o Aprofundamento do Relevo Repulsivo para impor barreiras de energia íngremes contra o colapso em modos de falha. Experimentos extensos em tarefas de geração de imagem e vídeo (por exemplo, SDXL, Wan2.1) e *benchmarks* rigorosos (por exemplo, VBench, GenEval) demonstram que a AMD melhora significativamente a fidelidade da amostra e a robustez do treinamento. Por exemplo, a AMD melhora a pontuação HPSv2 no SDXL de 30,64 para 31,25, superando os *baselines* state-of-the-art. Esses achados validam que a retificação explícita das trajetórias de otimização dentro das Zonas Proibidas é essencial para elevar o limite de desempenho de modelos generativos de poucos passos.
Os agentes de IA modernos são poderosos, mas frequentemente falham em se alinhar com as preferências idiossincráticas e em evolução de utilizadores individuais. As abordagens anteriores geralmente dependem de conjuntos de dados estáticos, seja treinando modelos implícitos de preferência com base no histórico de interações ou codificando perfis de utilizador em memória externa. No entanto, essas abordagens lutam com novos utilizadores e com preferências que mudam ao longo do tempo. Apresentamos os Agentes Personalizados a partir de *Feedback* Humano (PAHF), uma estrutura para personalização contínua na qual os agentes aprendem online a partir da interação em tempo real, usando memória explícita por utilizador. O PAHF opera através de um ciclo de três etapas: (1) busca de clarificação pré-ação para resolver ambiguidades, (2) fundamentação de ações em preferências recuperadas da memória, e (3) integração de *feedback* pós-ação para atualizar a memória quando as preferências se alteram. Para avaliar esta capacidade, desenvolvemos um protocolo de quatro fases e dois benchmarks em manipulação corporificada e compras online. Estes benchmarks quantificam a capacidade de um agente de aprender preferências iniciais do zero e, subsequentemente, adaptar-se a mudanças de persona. A nossa análise teórica e os resultados empíricos mostram que a integração de memória explícita com canais de *feedback* duplos é crítica: o PAHF aprende substancialmente mais rápido e supera consistentemente as linhas de base sem memória e de canal único, reduzindo o erro de personalização inicial e permitindo uma adaptação rápida a mudanças de preferência.
Agentes multimodais de longo horizonte dependem de memória externa; no entanto, a recuperação baseada em similaridade frequentemente traz à tona itens desatualizados, de baixa credibilidade ou conflitantes, o que pode desencadear erros de excesso de confiança. Propomos o Agente de Memória Multimodal (MMA), que atribui a cada item de memória recuperado uma pontuação de confiabilidade dinâmica, combinando a credibilidade da fonte, o decaimento temporal e um consenso de rede com consciência de conflitos, e usa este sinal para reponderar evidências e abster-se quando o suporte é insuficiente. Também introduzimos o MMA-Bench, um benchmark gerado programaticamente para dinâmica de crenças com confiabilidade controlada do orador e contradições estruturadas texto-visão. Usando esta estrutura, descobrimos o "Efeito Placebo Visual", revelando como agentes baseados em RAG herdam vieses visuais latentes de modelos de base. No FEVER, o MMA iguala a precisão da linha de base enquanto reduz a variância em 35,2% e melhora a utilidade seletiva; no LoCoMo, uma configuração orientada para a segurança melhora a precisão acionável e reduz respostas erradas; no MMA-Bench, o MMA atinge 41,18% de precisão Tipo-B no modo Visão, enquanto a linha de base cai para 0,0% sob o mesmo protocolo. Código: https://github.com/AIGeeksGroup/MMA.
Apresentamos os Nexus Adapters, novos adaptadores eficientes guiados por texto para a estrutura baseada em difusão destinada à Geração Condicional com Preservação de Estrutura (SPCG). Recentemente, os métodos de preservação de estrutura alcançaram resultados promissores na geração condicional de imagens ao utilizar um modelo base para o condicionamento por *prompt* e um adaptador para a entrada estrutural, como esboços ou mapas de profundidade. Essas abordagens são altamente ineficientes e, por vezes, exigem tantos parâmetros no adaptador quanto na arquitetura base. Nem sempre é possível treinar o modelo, uma vez que o próprio modelo de difusão é custoso, e dobrar o número de parâmetros é altamente ineficiente. Nessas abordagens, o adaptador não tem conhecimento do *prompt* de entrada; portanto, é otimizado apenas para a entrada estrutural, mas não para o *prompt* de entrada. Para superar os desafios acima, propusemos dois adaptadores eficientes, Nexus Prime e Nexus Slim, que são guiados pelos *prompts* e pelas entradas estruturais. Cada Bloco Nexus incorpora mecanismos de *cross-attention* para permitir um condicionamento multimodal rico. Consequentemente, o adaptador proposto tem uma melhor compreensão do *prompt* de entrada, preservando a estrutura. Realizamos extensivos experimentos nos modelos propostos e demonstramos que o adaptador Nexus Prime melhora significativamente o desempenho, exigindo apenas 8 milhões de parâmetros adicionais em comparação com a linha de base, o T2I-Adapter. Além disso, também introduzimos um adaptador leve, o Nexus Slim, com 18 milhões de parâmetros a menos que o T2I-Adapter, que ainda assim alcançou resultados de última geração. Código: https://github.com/arya-domain/Nexus-Adapters
Um aspecto fundamental da percepção humana é a consciência situada, a capacidade de nos relacionarmos com o ambiente físico circundante e raciocinarmos sobre possíveis ações em contexto. No entanto, a maioria dos benchmarks existentes para modelos de fundação multimodais (MFMs) enfatiza relações espaciais centradas no ambiente (relações entre objetos em uma cena), enquanto ignora amplamente as relações centradas no observador, que exigem raciocínio relativo ao ponto de vista, à postura e ao movimento do agente. Para preencher essa lacuna, apresentamos o SAW-Bench (Situated Awareness in the Real World), um novo benchmark para avaliar a consciência situada egocêntrica usando vídeos do mundo real. O SAW-Bench é composto por 786 vídeos auto-gravados com os óculos inteligentes Ray-Ban Meta (Gen 2), abrangendo diversos ambientes internos e externos, e mais de 2.071 pares de pergunta-resposta anotados manualmente. Ele investiga a compreensão centrada no observador de um modelo por meio de seis tarefas de consciência diferentes. Nossa avaliação abrangente revela uma lacuna de desempenho homem-modelo de 37,66%, mesmo com o MFM de melhor desempenho, o Gemini 3 Flash. Além dessa lacuna, nossa análise aprofundada revela várias descobertas notáveis; por exemplo, embora os modelos possam explorar pistas geométricas parciais em vídeos egocêntricos, eles frequentemente falham em inferir uma geometria de câmera coerente, levando a erros sistemáticos de raciocínio espacial. Posicionamos o SAW-Bench como um benchmark para a inteligência espacial situada, indo além da observação passiva para a compreensão de dinâmicas fisicamente fundamentadas e centradas no observador.
Apresentamos uma nova estrutura de segmentação multimodal consciente da incerteza que aproveita tanto imagens radiológicas quanto texto clínico associado para um diagnóstico médico preciso. Propomos um Bloco de Atenção de Decodificação de Modalidade (MoDAB) com um Misturador de Espaço de Estados leve (SSMix) para permitir uma fusão multimodal eficiente e modelagem de dependências de longo alcance. Para orientar a aprendizagem sob ambiguidade, propomos a Perda de Incerteza Espectral-Entrópica (SEU), que captura conjuntamente sobreposição espacial, consistência espectral e incerteza preditiva em um objetivo unificado. Em circunstâncias clínicas complexas com baixa qualidade de imagem, esta formulação melhora a confiabilidade do modelo. Experimentos extensivos em vários conjuntos de dados médicos publicamente disponíveis, QATA-COVID19, MosMed++ e Kvasir-SEG, demonstram que nosso método alcança desempenho de segmentação superior, sendo significativamente mais eficiente computacionalmente do que as abordagens State-of-the-Art (SoTA) existentes. Nossos resultados destacam a importância de incorporar a modelagem de incerteza e o alinhamento estruturado de modalidades em tarefas de segmentação médica de visão e linguagem. Código: https://github.com/arya-domain/UA-VLS
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) avançaram significativamente a IA incorporada, e seu uso para avaliar a inteligência robótica tornou-se uma tendência pivotal. No entanto, as estruturas existentes permanecem predominantemente confinadas à manipulação com um único braço, falhando em capturar a coordenação espaço-temporal necessária para tarefas bimanuais, como levantar uma panela pesada. Para resolver isso, apresentamos o BiManiBench, um benchmark hierárquico que avalia os MLLMs em três níveis: raciocínio espacial fundamental, planeamento de ações de alto nível e controlo de efetuadores finais de baixo nível. A nossa estrutura isola desafios bimanuais únicos, como a alcançabilidade do braço e restrições cinemáticas, distinguindo assim alucinações perceptivas de falhas de planeamento. A análise de mais de 30 modelos state-of-the-art revela que, apesar da proficiência no raciocínio de alto nível, os MLLMs lutam com a ancoragem espacial e o controlo de braços duplos, resultando frequentemente em interferência mútua e erros de sequenciação. Estas descobertas sugerem que o paradigma atual carece de uma compreensão profunda das restrições cinemáticas mútuas, destacando a necessidade de investigação futura focar na evitamento de colisões entre braços e na sequenciação temporal de granularidade fina.
Os grandes modelos generativos visuo-linguísticos (LVLMs) têm alcançado recentemente ganhos impressionantes de desempenho, e sua base de utilizadores está a crescer rapidamente. No entanto, a segurança dos LVLMs, particularmente em contextos multi-turno de longo prazo, permanece largamente inexplorada. Neste artigo, consideramos o cenário realista em que um atacante carrega uma imagem manipulada para a web ou redes sociais. Um utilizador benigno descarrega esta imagem e usa-a como *input* para o LVLM. O nosso novo e furtivo ataque de Injeção de Memória Visual (VMI) é concebido de forma que, em *prompts* normais, o LVLM exibe um comportamento nominal, mas assim que o utilizador fornece um *prompt* desencadeador, o LVLM emite uma mensagem-alvo específica e prescrita para manipular o utilizador, por exemplo, para marketing adversarial ou persuasão política. Em comparação com trabalhos anteriores que se concentraram em ataques de turno único, o VMI é eficaz mesmo após uma longa conversação multi-turno com o utilizador. Demonstramos o nosso ataque em vários LVLMs recentes de pesos abertos. Este artigo mostra, assim, que a manipulação em larga escala de utilizadores é viável com imagens perturbadas em cenários de conversação multi-turno, apelando a uma melhor robustez dos LVLMs contra estes ataques. Disponibilizamos o código-fonte em https://github.com/chs20/visual-memory-injection.
A epidemia de opioides continua a devastar comunidades em todo o mundo, sobrecarregando os sistemas de saúde, perturbando famílias e exigindo soluções computacionais urgentes. Para combater esta crise letal de opioides, os métodos de aprendizado em grafos surgiram como um paradigma promissor para modelar fenômenos complexos relacionados a drogas. No entanto, uma lacuna significativa permanece: não existe um benchmark abrangente para avaliar sistematicamente esses métodos em cenários reais da crise de opioides. Para preencher essa lacuna, apresentamos o OPBench, o primeiro benchmark abrangente de opioides, composto por cinco conjuntos de dados em três domínios de aplicação críticos: detecção de overdose de opioides a partir de registros de saúde, detecção de tráfico ilícito de drogas em plataformas digitais e previsão de uso indevido de drogas a partir de padrões alimentares. Especificamente, o OPBench incorpora diversas estruturas de grafos, incluindo grafos heterogêneos e hipergrafos, para preservar as informações relacionais ricas e complexas entre os dados relacionados a drogas. Para lidar com a escassez de dados, colaboramos com especialistas do domínio e instituições autorizadas para curar e anotar conjuntos de dados, respeitando as diretrizes de privacidade e ética. Além disso, estabelecemos uma estrutura de avaliação unificada com protocolos padronizados, divisões de dados predefinidas e linhas de base reproduzíveis para facilitar uma comparação justa e sistemática entre os métodos de aprendizado em grafos. Por meio de experimentos extensos, analisamos os pontos fortes e as limitações dos métodos existentes de aprendizado em grafos, fornecendo assim insights acionáveis para pesquisas futuras no combate à crise dos opioides. Nosso código-fonte e conjuntos de dados estão disponíveis em https://github.com/Tianyi-Billy-Ma/OPBench.