Artigos de pesquisa em IA selecionados diariamente com traduções
O ajuste fino por reforço (RFT), uma estrutura de duas fases que consiste em ajuste fino supervisionado (SFT) e aprendizagem por reforço (RL), tem mostrado resultados promissores na melhoria da capacidade de raciocínio de grandes modelos de linguagem (LLMs). No entanto, estender o RFT a grandes modelos de vídeo e linguagem (LVLMs) permanece um desafio. Propomos o VideoP2R, uma nova estrutura de RFT para vídeo consciente do processo que melhora o raciocínio em vídeo ao modelar a perceção e o raciocínio como processos distintos. Na fase SFT, desenvolvemos um *pipeline* de três etapas para gerar o VideoP2R-CoT-162K, um conjunto de dados de cadeia de pensamento (CoT) de alta qualidade e consciente do processo para perceção e raciocínio. Na fase RL, introduzimos um novo algoritmo de otimização de política relativa em grupo consciente do processo (PA-GRPO) que fornece recompensas separadas para a perceção e para o raciocínio. Experimentos extensivos mostram que o VideoP2R alcança desempenho de estado da arte (SotA) em seis de sete benchmarks de raciocínio e compreensão de vídeo. Estudos de ablação confirmam ainda a eficácia da nossa modelação consciente do processo e do PA-GRPO e demonstram que a saída de perceção do modelo é suficiente em informação para o raciocínio subsequente.
A melhoria das capacidades de raciocínio de Modelos de Linguagem de Grande Porte (LLMs), especialmente sob restrições de parâmetros, é crucial para aplicações do mundo real. Trabalhos anteriores propõem transformadores recorrentes, que alocam um número fixo de iterações extras por token para melhorar a qualidade da geração. Após a primeira passagem direta padrão, em vez da verbalização, os estados ocultos da última camada são realimentados como entradas para iterações adicionais, refinando as previsões dos tokens. No entanto, identificamos um fenômeno de *overthinking* latente: previsões fáceis de tokens que já estão corretas após a primeira passagem são, por vezes, revisadas para erros em iterações adicionais. Para resolver isto, propomos o Think-at-Hard (TaH), um método de pensamento latente dinâmico que itera mais profundamente apenas em tokens difíceis. Ele emprega um decisor neural leve para acionar iterações latentes apenas em tokens que provavelmente estão incorretos após a passagem direta padrão. Durante as iterações latentes, módulos de Adaptação de Baixa *Rank* (LoRA) deslocam o objetivo do LLM da previsão geral do próximo token para o refinamento focado de tokens difíceis. Introduzimos ainda um mecanismo de atenção duo-causal que estende a atenção da dimensão da sequência de tokens para uma dimensão adicional de profundidade de iteração. Isto permite o fluxo de informação entre iterações, mantendo o paralelismo sequencial total. Experiências mostram que o TaH aumenta o desempenho de raciocínio de LLMs em cinco *benchmarks* desafiadores, mantendo a mesma contagem de parâmetros. Em comparação com linhas de base que iteram duas vezes para todos os tokens de saída, o TaH proporciona ganhos de precisão de 8,1-11,3%, enquanto isenta 94% dos tokens da segunda iteração. Contra fortes modelos Qwen3 de iteração única ajustados com os mesmos dados, também proporciona ganhos de precisão de 4,0-5,0%. Ao permitir menos de 3% de parâmetros adicionais do LoRA e do decisor de iteração, os ganhos aumentam para 8,5-12,6% e 5,3-5,4%, respetivamente. O nosso código está disponível em https://github.com/thu-nics/TaH.
Apresentamos o AraLingBench: um benchmark totalmente anotado por humanos para avaliar a competência linguística em árabe de modelos de linguagem de grande escala (LLMs). O benchmark abrange cinco categorias principais: gramática, morfologia, ortografia, compreensão de leitura e sintaxe, por meio de 150 questões de múltipla escolha elaboradas por especialistas que avaliam diretamente o entendimento estrutural da língua. A avaliação de 35 LLMs em árabe e bilíngues revela que os modelos atuais demonstram forte proficiência superficial, mas enfrentam dificuldades com raciocínios gramaticais e sintáticos mais profundos. O AraLingBench destaca uma lacuna persistente entre altas pontuações em benchmarks baseados em conhecimento e o verdadeiro domínio linguístico, mostrando que muitos modelos obtêm sucesso por meio de memorização ou reconhecimento de padrões, em vez de compreensão autêntica. Ao isolar e medir habilidades linguísticas fundamentais, o AraLingBench fornece uma estrutura diagnóstica para o desenvolvimento de LLMs em árabe. O código completo de avaliação está disponível publicamente no GitHub.
A estilização visual inovadora é um pilar fundamental da criação artística, mas a geração de estilos visuais novos e consistentes continua a ser um desafio significativo. As abordagens generativas existentes geralmente dependem de instruções textuais longas, imagens de referência ou ajuste fino com eficiência de parâmetros para orientar a geração de imagens com consciência de estilo, mas frequentemente lutam com consistência estilística, criatividade limitada e representações de estilo complexas. Neste artigo, afirmamos que um estilo vale por um código numérico, introduzindo a nova tarefa de geração de imagem código-para-estilo, que produz imagens com estilos visuais novos e consistentes condicionados apenas por um código de estilo numérico. Até à data, este campo foi explorado principalmente pela indústria (por exemplo, Midjourney), sem investigação de código aberto da comunidade académica. Para preencher esta lacuna, propomos o CoTyle, o primeiro método de código aberto para esta tarefa. Especificamente, começamos por treinar um codebook de estilos discretos a partir de uma coleção de imagens para extrair incorporações de estilo. Estas incorporações servem como condições para um modelo de difusão texto-para-imagem (T2I-DM) gerar imagens estilizadas. Subsequentemente, treinamos um gerador de estilos autorregressivo nas incorporações de estilo discretas para modelar a sua distribuição, permitindo a síntese de novas incorporações de estilo. Durante a inferência, um código de estilo numérico é mapeado para uma incorporação de estilo única pelo gerador de estilos, e esta incorporação orienta o T2I-DM para gerar imagens no estilo correspondente. Ao contrário dos métodos existentes, a nossa abordagem oferece uma simplicidade e diversidade incomparáveis, desbloqueando um vasto espaço de estilos reproduzíveis a partir de uma entrada mínima. Experiências extensivas validam que o CoTyle transforma efetivamente um código numérico num controlador de estilo, demonstrando que um estilo vale por um código.
Os modelos de base revolucionaram a inteligência artificial em inúmeros domínios, mas o seu potencial transformador permanece largamente por explorar na Classificação Multi-rótulo Extrema (XMC). Nas tarefas de XMC, as consultas estão associadas a rótulos relevantes de espaços de rótulos extremamente grandes, sendo crucial encontrar um equilíbrio entre eficiência e desempenho. Por isso, muitas abordagens recentes formulam eficientemente o problema de XMC como uma busca de produto interno máximo entre incorporações aprendidas a partir de pequenas arquiteturas transformadoras do tipo *encoder-only*. Neste artigo, abordamos dois aspetos importantes na XMC: como aproveitar eficazmente modelos maiores do tipo *decoder-only* e como explorar a informação visual mantendo a eficiência computacional. Demonstramos que ambos desempenham um papel crítico na XMC separadamente e podem ser combinados para melhorar o desempenho. Mostramos que um *decoder* de alguns milhares de milhões de parâmetros pode proporcionar melhorias substanciais, mantendo uma sobrecarga computacional gerível. Além disso, a nossa estrutura Vision-enhanced eXtreme Multi-label Learning (ViXML) integra eficientemente modelos de base de visão através do agrupamento de uma única incorporação por imagem. Isto limita o crescimento computacional, ao mesmo tempo que desbloqueia capacidades multimodais. Notavelmente, a ViXML com pequenos *encoders* supera o *decoder* baseado apenas em texto na maioria dos casos, mostrando que uma imagem vale milhares de milhões de parâmetros. Por fim, apresentamos uma extensão de conjuntos de dados existentes apenas com texto para explorar metadados visuais e disponibilizamo-los para futuras comparações. Experiências abrangentes em quatro conjuntos de dados públicos apenas com texto e nas suas versões correspondentes enriquecidas com imagens validam a eficácia das nossas propostas, superando o estado da arte anterior em até +8,21% em P@1 no maior conjunto de dados. O código da ViXML está disponível em https://github.com/DiegoOrtego/vixml.
Embora o prompting de Cadeia de Pensamento (CoT) permita um raciocínio simbólico sofisticado em LLMs, ele permanece confinado a texto discreto e não pode simular a dinâmica contínua, regida pela física, do mundo real. Modelos recentes de geração de vídeo surgiram como simuladores de mundo potenciais por meio do raciocínio de Cadeia de Frames (CoF) — materializando o pensamento como sequências visuais frame a frame, onde cada frame representa uma etapa de raciocínio com base física. Apesar de demonstrações convincentes, um desafio persiste: os benchmarks existentes, focados em fidelidade ou alinhamento, não avaliam o raciocínio CoF e, portanto, não podem medir habilidades cognitivas centrais no planeamento multi-etapa, lógica algorítmica ou extrapolação de padrões abstratos. Este vazio de avaliação impede uma compreensão sistemática das capacidades dos modelos e uma orientação fundamentada para a sua melhoria. Apresentamos o Gen-ViRe (Generative Visual Reasoning Benchmark), um quadro baseado na ciência cognitiva e em aplicações de IA do mundo real, que decompõe o raciocínio CoF em seis dimensões cognitivas — desde a lógica perceptual até ao planeamento abstrato — e 24 subtarefas. Através de uma curadoria de dados multi-fonte, protocolos de prompting mínimos e avaliação híbrida assistida por VLM com critérios detalhados, o Gen-ViRe fornece a primeira avaliação quantitativa de modelos de vídeo como sistemas de raciocínio. As nossas experiências em sistemas de última geração revelam discrepâncias substanciais entre a qualidade visual impressionante e a profundidade real do raciocínio, estabelecendo linhas de base e ferramentas de diagnóstico para avançar no desenvolvimento de simuladores de mundo genuínos.
Mecanismos de autorreflexão que dependem de processos de repensar puramente baseados em texto apresentam bom desempenho na maioria das tarefas multimodais. No entanto, quando aplicados diretamente a cenários de compreensão de vídeos de longa duração, exibem limitações evidentes. As razões fundamentais para isso residem em dois pontos: (1) a compreensão de vídeos de longa duração envolve input visual mais rico e dinâmico, significando que repensar apenas a informação textual é insuficiente e necessita de um processo de repensar adicional especificamente direcionado à informação visual; (2) mecanismos de reflexão puramente baseados em texto carecem de capacidades de interação cross-modal, impedindo-os de integrar plenamente a informação visual durante a reflexão. Motivados por essas perceções, propomos o REVISOR (REflective VIsual Segment Oriented Reasoning), uma nova estrutura para reflexão multimodal aumentada por ferramentas. O REVISOR permite que os MLLMs construam colaborativamente processos de reflexão introspetiva através das modalidades textual e visual, melhorando significativamente a sua capacidade de raciocínio para a compreensão de vídeos de longa duração. Para garantir que o REVISOR possa aprender a rever com precisão segmentos de vídeo altamente relevantes para a questão durante o aprendizado por reforço, concebemos o mecanismo de Recompensa Desacoplada por Dupla Atribuição (DADR). Integrado na estratégia de treino GRPO, este mecanismo impõe um alinhamento causal entre o raciocínio do modelo e a evidência videográfica selecionada. De forma notável, a estrutura REVISOR melhora significativamente a capacidade de compreensão de vídeos de longa duração dos MLLMs sem exigir afinação supervisionada suplementar ou modelos externos, alcançando resultados impressionantes em quatro benchmarks, incluindo VideoMME, LongVideoBench, MLVU e LVBench.
Ferramentas de codificação agentivas recebem objetivos escritos em linguagem natural como entrada, decompõem-nos em tarefas específicas e escrevem ou executam o código real com intervenção humana mínima. Centrais a este processo estão os ficheiros de contexto do agente ("READMEs para agentes") que fornecem instruções persistentes a nível de projeto. Neste artigo, realizamos o primeiro estudo empírico em larga escala de 2.303 ficheiros de contexto de agentes de 1.925 repositórios para caracterizar a sua estrutura, manutenção e conteúdo. Verificamos que estes ficheiros não são documentação estática, mas artefactos complexos e de difícil leitura que evoluem como código de configuração, mantidos através de adições pequenas e frequentes. A nossa análise de conteúdo de 16 tipos de instruções mostra que os programadores priorizam o contexto funcional, como comandos de compilação e execução (62,3%), detalhes de implementação (69,9%) e arquitetura (67,7%). Identificamos também uma lacuna significativa: requisitos não funcionais como segurança (14,5%) e desempenho (14,5%) raramente são especificados. Estes resultados indicam que, embora os programadores usem ficheiros de contexto para tornar os agentes funcionais, eles fornecem poucas restrições para garantir que o código escrito pelo agente seja seguro ou performante, destacando a necessidade de melhorias nas ferramentas e práticas.
A avaliação da robustez dos Grandes Modelos de Visão e Linguagem (LVLMs) é essencial para o seu desenvolvimento contínuo e implementação responsável em aplicações do mundo real. No entanto, os pontos de referência de robustez existentes focam-se tipicamente em alucinações ou em entradas textuais enganosas, ignorando em grande medida o desafio igualmente crítico colocado por entradas visuais enganosas na avaliação da compreensão visual. Para preencher esta lacuna importante, introduzimos o MVI-Bench, o primeiro ponto de referência abrangente concebido especificamente para avaliar como as Entradas Visuais Enganosas comprometem a robustez dos LVLMs. Baseado em primitivos visuais fundamentais, o desenho do MVI-Bench centra-se em três níveis hierárquicos de entradas visuais enganosas: Conceito Visual, Atributo Visual e Relação Visual. Utilizando esta taxonomia, selecionámos seis categorias representativas e compilámos 1.248 instâncias de Pergunta-Resposta Visual (VQA) anotadas por especialistas. Para facilitar uma avaliação de robustez de granularidade fina, introduzimos ainda a MVI-Sensibilidade, uma nova métrica que caracteriza a robustez dos LVLMs a um nível granular. Os resultados empíricos obtidos com 18 LVLMs de última geração revelam vulnerabilidades pronunciadas a entradas visuais enganosas, e as nossas análises aprofundadas no MVI-Bench fornecem perspetivas acionáveis que podem orientar o desenvolvimento de LVLMs mais fiáveis e robustos. O ponto de referência e a base de código podem ser acedidos em https://github.com/chenyil6/MVI-Bench.
Os Grandes Modelos de Linguagem (LLMs) estão a ser cada vez mais explorados para a construção de Agentes capazes de interagir ativamente com o ambiente (por exemplo, através do uso de ferramentas) para resolver problemas complexos. A Aprendizagem por Reforço (RL) é considerada uma tecnologia-chave com potencial significativo para treinar tais Agentes; no entanto, a aplicação eficaz da RL a Agentes baseados em LLM ainda se encontra numa fase inicial e enfrenta desafios consideráveis. Atualmente, este campo emergente carece de uma exploração aprofundada de abordagens de RL especificamente adaptadas ao contexto dos Agentes de LLM, juntamente com uma escassez de estruturas de treino flexíveis e facilmente extensíveis concebidas para este fim. Para ajudar a avançar esta área, este artigo revisita e clarifica primeiro as metodologias de Aprendizagem por Reforço para Agentes de LLM, estendendo sistematicamente o quadro de Processo de Decisão de Markov (MDP) para definir de forma abrangente os componentes-chave de um Agente de LLM. Em segundo lugar, introduzimos o Agent-R1, uma estrutura de treino modular, flexível e de utilização intuitiva para Agentes de LLM baseados em RL, concebida para uma adaptação direta a diversos cenários de tarefas e ambientes interativos. Realizámos experiências em tarefas de referência de QA Multihop, fornecendo uma validação inicial da eficácia dos nossos métodos e estrutura propostos.
Apresentamos o Orion, uma estrutura de agente visual capaz de receber qualquer modalidade e gerar qualquer modalidade. Utilizando uma estrutura agentiva com capacidades múltiplas de chamada de ferramentas, o Orion foi projetado para tarefas de IA visual e alcança resultados de última geração. Diferente dos modelos visuais-linguísticos tradicionais que produzem saídas descritivas, o Orion orquestra um conjunto de ferramentas especializadas de visão computacional, incluindo detecção de objetos, localização de pontos-chave, segmentação panóptica, Reconhecimento Óptico de Caracteres e análise geométrica, para executar fluxos de trabalho visuais complexos e multi-etapas. O sistema alcança desempenho competitivo em MMMU, MMBench, DocVQA e MMLongBench, ao mesmo tempo que estende modelos monolíticos visuais-linguísticos para uma inteligência visual de nível de produção. Ao combinar percepção neural com execução simbólica, o Orion possibilita o raciocínio visual autônomo, marcando uma transição da compreensão visual passiva para uma inteligência visual ativa e orientada por ferramentas.
Os modelos de linguagem grandes omnimodais (OmniLLMs) têm atraído crescente atenção da investigação recentemente para uma compreensão unificada de áudio-vídeo, no entanto, o processamento de sequências de tokens áudio-vídeo cria um estrangulamento computacional significativo. Os métodos existentes de compressão de tokens ainda não acomodaram esta necessidade emergente de comprimir conjuntamente tokens multimodais. Para colmatar esta lacuna, apresentamos o OmniZip, uma estrutura de compressão de tokens áudio-visuais, guiada por áudio e sem necessidade de treino, que otimiza a representação de tokens multimodais e acelera a inferência. Especificamente, o OmniZip identifica primeiro tokens de áudio salientes, depois calcula uma pontuação de retenção de áudio para cada grupo temporal para capturar a densidade de informação, orientando dinamicamente a poda de tokens de vídeo e preservando pistas de âncoras de áudio melhoradas pela similaridade cross-modal. Para cada janela temporal, o OmniZip comprime os tokens de vídeo usando um esquema espaço-temporal intercalado. Resultados empíricos extensivos demonstram os méritos do OmniZip - ele alcança uma aceleração de inferência de 3,42X e uma redução de memória de 1,4X em relação a outras soluções de alto desempenho, mantendo o desempenho sem qualquer treino.
O rápido avanço dos Modelos de Língua Grande (LLMs) levou à saturação de desempenho em muitos benchmarks estabelecidos, questionando sua capacidade de distinguir modelos de fronteira. Simultaneamente, os benchmarks existentes de alta dificuldade frequentemente sofrem com foco disciplinar restrito, formatos de resposta simplificados demais e vulnerabilidade à contaminação de dados, criando uma lacuna de fidelidade com a investigação científica do mundo real. Para enfrentar esses desafios, apresentamos o ATLAS (Banco de Testes Orientado para IAG para Aplicação Lógica na Ciência), um conjunto de avaliação em larga escala, de alta dificuldade e interdisciplinar, composto por aproximadamente 800 problemas originais. Desenvolvido por especialistas de domínio (nível de doutorado ou superior), o ATLAS abrange sete campos científicos centrais: matemática, física, química, biologia, ciência da computação, geociências e ciência dos materiais. Suas principais características incluem: (1) Alta Originalidade e Resistência à Contaminação, com todas as questões sendo recém-criadas ou substancialmente adaptadas para evitar vazamento de dados de teste; (2) Foco Interdisciplinar, projetado para avaliar a capacidade dos modelos de integrar conhecimento e raciocinar através de domínios científicos; (3) Respostas de Alta Fidelidade, priorizando respostas complexas e abertas envolvendo raciocínio multi-etapas e expressões formatadas em LaTeX em vez de simples questões de múltipla escolha; e (4) Controle de Qualidade Rigoroso, empregando um processo multi-estágio de revisão por pares especialistas e teste adversarial para garantir a dificuldade, o valor científico e a correção das questões. Também propomos um paradigma de avaliação robusto usando um painel de juízes baseados em LLM para uma avaliação automatizada e nuances de respostas complexas. Resultados preliminares em modelos líderes demonstram a eficácia do ATLAS em diferenciar suas capacidades avançadas de raciocínio científico. Planejamos desenvolver o ATLAS como uma plataforma de longo prazo, aberta e orientada pela comunidade para fornecer uma "régua" confiável para o progresso em direção à Inteligência Artificial Geral.
Os modelos de base emergiram como estruturas eficazes para muitas tarefas de visão computacional. No entanto, as características atuais de autoaprendizagem entrelaçam semântica de alto nível com fatores físicos de baixo nível, como geometria e iluminação, dificultando seu uso em tarefas que exigem raciocínio físico explícito. Neste artigo, apresentamos o Φeat, uma nova estrutura visual com base física que incentiva uma representação sensível à identidade do material, incluindo pistas de reflectância e mesoestrutura geométrica. Nossa ideia principal é empregar uma estratégia de pré-treinamento que contrasta recortes espaciais e aumentações físicas do mesmo material sob diferentes formas e condições de iluminação. Embora dados similares tenham sido usados em tarefas supervisionadas avançadas, como decomposição intrínseca ou estimativa de material, demonstramos que uma estratégia de treinamento puramente auto supervisionada, sem rótulos explícitos, já fornece uma forte base prévia para tarefas que exigem características robustas invariantes a fatores físicos externos. Avaliamos as representações aprendidas por meio de análise de similaridade de características e seleção de material, mostrando que o Φeat captura estrutura física fundamentada além do agrupamento semântico. Essas descobertas destacam o potencial da aprendizagem não supervisionada de características físicas como alicerce para a percepção consciente da física na visão computacional e gráficos.
Apresentamos assistentes auditivos proativos que identificam e separam automaticamente os interlocutores do usuário, sem exigir comandos explícitos. Nosso sistema opera em áudio binaural egocêntrico e utiliza a fala do próprio usuário como âncora, aproveitando o comportamento de alternância de turnos e a dinâmica do diálogo para inferir os interlocutores e suprimir os demais. Para permitir operação em tempo real e no dispositivo, propomos uma arquitetura de modelo duplo: um modelo leve de streaming é executado a cada 12,5 ms para extração de baixa latência dos interlocutores, enquanto um modelo mais lento é executado com menos frequência para capturar dinâmicas conversacionais de longo alcance. Resultados em conjuntos de teste de conversas reais com 2 e 3 locutores, coletados com hardware egocêntrico binaural de 11 participantes totalizando 6,8 horas, demonstram generalização na identificação e isolamento de interlocutores em ambientes com múltiplas conversas. Nosso trabalho representa um passo em direção a assistentes auditivos que se adaptam proativamente à dinâmica conversacional e ao engajamento. Mais informações podem ser encontradas em nosso website: https://proactivehearing.cs.washington.edu/
Os modelos de linguagem de grande escala (LLMs) são aprendizes poderosos em contexto zero e poucos exemplos. No entanto, ao prever sobre um conjunto de opções candidatas, os LLMs sofrem com vieses de rótulo, e os métodos de calibração existentes ignoram os vieses decorrentes de rótulos de classe com múltiplos tokens. Abordamos um problema que chamamos de viés de comprimento do rótulo, onde rótulos de diferentes comprimentos são tratados de forma inconsistente, mesmo após a normalização padrão de comprimento. Para mitigá-lo, propomos a calibração contextual normalizada (NCC), um método eficaz que normaliza e calibra as previsões em nível de rótulo completo. A NCC alcança melhorias estatisticamente significativas em relação às abordagens anteriores em vários conjuntos de dados e modelos, com ganhos de até 10% em F1. Além disso, a NCC estende a mitigação de viés para tarefas mais amplas, como a resposta a perguntas de múltipla escolha. Nossa análise mostra que, quando combinada com o aprendizado em contexto, a NCC é menos sensível à seleção de exemplos poucos exemplos, requer menos exemplos para um desempenho competitivo e produz estimativas de confiança mais confiáveis. Essas descobertas destacam a importância de mitigar vieses de rótulo completo para melhorar o desempenho e a robustez dos métodos baseados em LLM, particularmente em aplicações do mundo real onde os rótulos de classe naturalmente consistem em múltiplos tokens.
Apesar dos recentes avanços nos modelos de linguagem de grande porte para 3D (3D-LLMs), estes permanecem limitados na ancoragem precisa da linguagem a elementos visuais e espaciais em ambientes 3D. Esta limitação decorre em parte de dados de treinamento que se concentram no raciocínio linguístico em vez da compreensão espacial, devido à escassez de recursos 3D, deixando vieses inerentes de ancoragem não resolvidos. Para resolver isso, propomos a edição de cenas 3D como um mecanismo fundamental para gerar contrafactuais visuais precisos que mitiguem esses vieses por meio de manipulação espacial de granularidade fina, sem exigir a reconstrução onerosa de cenas ou a coleta de dados 3D em larga escala. Adicionalmente, para que essas edições sejam direcionadas e abordem diretamente as fraquezas específicas do modelo, introduzimos o DEER-3D, uma estrutura orientada a erros que segue um fluxo estruturado "Decompor, Avaliação Diagnóstica, Editar e Retreinar", em vez de aumentar os dados de forma ampla ou aleatória, como nas abordagens convencionais. Especificamente, ao identificar uma falha de ancoragem do 3D-LLM, nossa estrutura primeiro diagnostica o erro exato a nível de predicado (por exemplo, atributo ou relação espacial). Em seguida, executa edições mínimas na cena 3D, alinhadas ao predicado, como alteração de cor ou reposicionamento, para produzir uma supervisão contrafactual direcionada para o ajuste fino iterativo do modelo, melhorando significativamente a precisão da ancoragem. Avaliamos nosso pipeline de edição em múltiplos benchmarks para tarefas de ancoragem 3D e compreensão de cenas, demonstrando consistentemente melhorias em todos os conjuntos de dados avaliados por meio de refinamento iterativo. O DEER-3D ressalta a eficácia da edição de cenas direcionada e orientada a erros para unir as capacidades de raciocínio linguístico com a ancoragem espacial em LLMs 3D.
As emoções humanas são difíceis de transmitir através de palavras e frequentemente tornam-se abstratas no processo; no entanto, os sinais de eletroencefalograma (EEG) podem oferecer uma lente mais direta sobre a atividade cerebral emocional. Estudos recentes mostram que modelos de aprendizagem profunda podem processar esses sinais para realizar o reconhecimento de emoções com alta precisão. Contudo, muitas abordagens existentes negligenciam a interação dinâmica entre distintas regiões cerebrais, que pode ser crucial para compreender como as emoções se desdobram e evoluem ao longo do tempo, potencialmente auxiliando em um reconhecimento emocional mais preciso. Para resolver isso, propomos o RBTransformer, uma arquitetura de rede neural baseada no Transformer que modela a dinâmica neural inter-cortical do cérebro no espaço latente para capturar melhor as interações neurais estruturadas para um reconhecimento de emoções baseado em EEG eficaz. Primeiro, os sinais de EEG são convertidos em tokens de Entropia Diferencial de Banda (BDE), que são então passados por incorporações de Identidade de Eletrodo para reter a proveniência espacial. Esses tokens são processados por sucessivos blocos de atenção multi-cabeça inter-cortical que constroem uma matriz de atenção eletrodo x eletrodo, permitindo que o modelo aprenda as dependências neurais inter-corticais. As características resultantes são então passadas por um cabeçalho de classificação para obter a previsão final. Realizamos extensivos experimentos, especificamente em configurações dependentes do sujeito, nos conjuntos de dados SEED, DEAP e DREAMER, em todas as três dimensões (Valência, Excitação e Dominância para DEAP e DREAMER), sob configurações de classificação binária e multiclasse. Os resultados demonstram que o RBTransformer proposto supera todos os métodos state-of-the-art anteriores em todos os três conjuntos de dados, em todas as três dimensões, sob ambas as configurações de classificação. O código-fonte está disponível em: https://github.com/nnilayy/RBTransformer.
A Engenharia do Caos (EC) é uma técnica de engenharia que visa melhorar a resiliência de sistemas distribuídos. Ela envolve a injeção intencional de falhas em um sistema para testar sua resiliência, descobrir fragilidades e corrigi-las antes que causem falhas em produção. Ferramentas modernas de EC automatizam a execução de experimentos de EC pré-definidos. No entanto, o planejamento desses experimentos e a melhoria do sistema com base nos resultados experimentais ainda permanecem manuais. Esses processos são intensivos em mão de obra e exigem expertise multidisciplinar. Para enfrentar esses desafios e permitir que qualquer pessoa construa sistemas resilientes a baixo custo, este artigo propõe o ChaosEater, um sistema que automatiza todo o ciclo de EC com Modelos de Linguagem de Grande Escala (LLMs). Ele pré-define um fluxo de trabalho agentivo de acordo com um ciclo sistemático de EC e atribui processos subdivididos dentro do fluxo aos LLMs. O ChaosEater tem como alvo a EC para sistemas de software construídos em Kubernetes. Portanto, os LLMs no ChaosEater completam ciclos de EC por meio de tarefas de engenharia de software, incluindo definição de requisitos, geração de código, teste e depuração. Avaliamos o ChaosEater por meio de estudos de caso em sistemas Kubernetes de pequena e grande escala. Os resultados demonstram que ele completa consistentemente ciclos de EC razoáveis com custos de tempo e monetários significativamente baixos. Seus ciclos também são validados qualitativamente por engenheiros humanos e LLMs.
Os Grandes Modelos de Visão e Linguagem (LVLMs) normalmente alinham características visuais de um codificador com um Modelo de Linguagem Grande (LLM) pré-treinado. No entanto, isso torna o módulo de percepção visual um gargalo, o que restringe as capacidades gerais dos LVLMs. As benchmarks de avaliação convencionais, embora ricas em semântica visual, frequentemente contêm atalhos locais inevitáveis que podem levar a uma superestimação das habilidades perceptivas dos modelos. Aqui, introduzimos o TopoPerception, uma benchmark que aproveita propriedades topológicas para avaliar rigorosamente as capacidades de percepção visual global dos LVLMs em várias granularidades. Como a topologia depende da estrutura global de uma imagem e é invariante a características locais, o TopoPerception permite uma avaliação livre de atalhos da percepção global, distinguindo-se fundamentalmente de tarefas semanticamente ricas. Avaliamos os modelos state-of-the-art no TopoPerception e descobrimos que mesmo na granularidade perceptual mais grosseira, todos os modelos não performam melhor do que o acaso aleatório, indicando uma profunda incapacidade de perceber características visuais globais. Notavelmente, surge uma tendência consistente dentro das famílias de modelos: modelos mais poderosos com capacidades de raciocínio mais fortes exibem uma precisão menor. Isto sugere que apenas aumentar a escala dos modelos é insuficiente para resolver esta deficiência e pode mesmo exacerbá-la. O progresso pode exigir novos paradigmas de treino ou arquiteturas. O TopoPerception não só expõe um gargalo crítico nos LVLMs atuais, como também oferece uma lente e uma direção para melhorar a sua percepção visual global. Os dados e o código estão publicamente disponíveis em: https://github.com/Wenhao-Zhou/TopoPerception.