Artigos de pesquisa em IA selecionados diariamente com traduções
A compreensão de objetos em 3D a partir de uma única imagem é um pilar fundamental da inteligência espacial. Um passo crucial para este objetivo é a deteção monocular de objetos 3D – a recuperação da extensão, localização e orientação de objetos a partir de uma imagem RGB de entrada. Para ser prática no mundo real, tal detetor deve generalizar para além de categorias de conjunto fechado, suportar diversas modalidades de prompt e aproveitar pistas geométricas quando disponíveis. O progresso é dificultado por dois estrangulamentos: os métodos existentes são concebidos para um único tipo de prompt e carecem de um mecanismo para incorporar pistas geométricas adicionais, e os conjuntos de dados 3D atuais abrangem apenas categorias restritas em ambientes controlados, limitando a transferência para o mundo aberto. Neste trabalho, abordamos ambas as lacunas. Primeiro, introduzimos o WildDet3D, uma arquitetura unificada e consciente da geometria que aceita nativamente prompts de texto, ponto e caixa e pode incorporar sinais de profundidade auxiliares no momento da inferência. Em segundo lugar, apresentamos o WildDet3D-Data, o maior conjunto de dados de deteção 3D aberto até à data, construído através da geração de caixas 3D candidatas a partir de anotações 2D existentes e retendo apenas as validadas por humanos, resultando em mais de 1M de imagens abrangendo 13,5K categorias em diversas cenas do mundo real. O WildDet3D estabelece um novo estado da arte em vários benchmarks e configurações. Na configuração de mundo aberto, atinge 22,6/24,8 AP3D no nosso recém-introduzido WildDet3D-Bench com prompts de texto e caixa. No Omni3D, atinge 34,2/36,4 AP3D com prompts de texto e caixa, respetivamente. Na avaliação *zero-shot*, atinge 40,3/48,9 ODS no Argoverse 2 e no ScanNet. Notavelmente, a incorporação de pistas de profundidade no momento da inferência produz ganhos adicionais substanciais (+20,7 AP em média em todas as configurações).
O setor manufatureiro está adotando cada vez mais Modelos de Linguagem Multimodais de Grande Porte (MLLMs) para transitar da perceção simples para a execução autónoma, no entanto, as avaliações atuais não refletem as exigências rigorosas dos ambientes reais de manufatura. O progresso é dificultado pela escassez de dados e pela falta de semântica de domínio granular nos conjuntos de dados existentes. Para colmatar esta lacuna, apresentamos o FORGE. Primeiro, construímos um conjunto de dados multimodal de alta qualidade que combina imagens 2D do mundo real e nuvens de pontos 3D, anotadas com semântica de domínio granular (por exemplo, números de modelo exatos). Em seguida, avaliamos 18 MLLMs de última geração em três tarefas de manufatura, nomeadamente verificação de peças, inspeção de superfícies estruturais e verificação de montagem, revelando lacunas de desempenho significativas. Contrariamente ao entendimento convencional, a análise de estrangulamento mostra que a fundamentação visual não é o principal fator limitante. Em vez disso, o conhecimento insuficiente específico do domínio é o estrangulamento chave, estabelecendo uma direção clara para pesquisas futuras. Para além da avaliação, mostramos que as nossas anotações estruturadas podem servir como um recurso de treino acionável: o ajuste fino supervisionado de um modelo compacto de 3B de parâmetros com os nossos dados produz uma melhoria relativa de até 90,8% na precisão em cenários de manufatura retidos, fornecendo evidências preliminares para um caminho prático em direção a MLLMs de manufatura adaptados ao domínio. O código e os conjuntos de dados estão disponíveis em https://ai4manufacturing.github.io/forge-web.
Este relatório técnico apresenta o EXAONE 4.5, o primeiro modelo de linguagem visual de pesos abertos lançado pela LG AI Research. O EXAONE 4.5 foi arquitetado através da integração de um codificador visual dedicado à estrutura existente do EXAONE 4.0, permitindo um pré-treinamento multimodal nativo sobre modalidades visuais e textuais. O modelo foi treinado em dados de grande escala, criteriosamente selecionados, com especial ênfase em corpora centrados em documentos que se alinham com os domínios de aplicação estratégicos da LG. Este desenho de dados direcionado possibilita ganhos substanciais de desempenho na compreensão de documentos e tarefas relacionadas, ao mesmo tempo que proporciona melhorias abrangentes nas capacidades gerais de linguagem. O EXAONE 4.5 estende o contexto para até 256 mil *tokens*, facilitando o raciocínio de longo contexto e casos de uso em escala empresarial. Avaliações comparativas demonstram que o EXAONE 4.5 atua de forma competitiva em *benchmarks* gerais, ao mesmo tempo que supera modelos de última geração de escala similar em compreensão de documentos e raciocínio contextual em coreano. Como parte do esforço contínuo da LG para uma implantação industrial prática, o EXAONE 4.5 foi concebido para ser continuamente estendido com domínios e cenários de aplicação adicionais, visando avançar a IA para uma vida melhor.
Com o avanço da geração de vídeo interativo, os modelos de difusão têm demonstrado cada vez mais seu potencial como modelos de mundo. No entanto, as abordagens existentes ainda lutam para alcançar simultaneamente consistência temporal de longo prazo com memória e geração em tempo real de alta resolução, limitando sua aplicabilidade em cenários do mundo real. Para resolver isso, apresentamos o Matrix-Game 3.0, um modelo de mundo interativo aumentado por memória, projetado para geração de vídeos longos em tempo real em 720p. Com base no Matrix-Game 2.0, introduzimos melhorias sistemáticas em dados, modelo e inferência. Primeiro, desenvolvemos um motor de dados infinitos de escala industrial atualizado que integra dados sintéticos baseados no Unreal Engine, coleta automatizada em larga escala de jogos AAA e aumento de vídeos do mundo real para produzir dados quadrupletos Vídeo-Postura-Ação-Prompt de alta qualidade em escala. Segundo, propomos uma estrutura de treinamento para consistência de longo horizonte: ao modelar resíduos de previsão e reinjetar quadros gerados imperfeitos durante o treinamento, o modelo base aprende a autocorreção; entretanto, a recuperação e injeção de memória com consciência da câmera permitem que o modelo base alcance consistência espaço-temporal de longo horizonte. Terceiro, projetamos uma estratégia de destilação autorregressiva multi-segmento baseada na Destilação por Correspondência de Distribuição (DMD), combinada com quantização do modelo e poda do decodificador VAE, para alcançar inferência eficiente em tempo real. Resultados experimentais mostram que o Matrix-Game 3.0 alcança geração em tempo real de até 40 FPS em resolução 720p com um modelo de 5B, mantendo consistência de memória estável em sequências com duração de minutos. Escalar para um modelo 2x14B melhora ainda mais a qualidade de geração, a dinâmica e a generalização. Nossa abordagem fornece um caminho prático para modelos de mundo implantáveis em escala industrial.
Apresentamos o refinamento de imagem específico por região como um cenário de problema dedicado: dada uma imagem de entrada e uma região especificada pelo utilizador (por exemplo, uma máscara de rabisco ou uma caixa delimitadora), o objetivo é restaurar detalhes de alta granularidade mantendo todos os píxeis não editados estritamente inalterados. Apesar do rápido progresso na geração de imagens, os modelos modernos ainda sofrem frequentemente de colapso de detalhes locais (por exemplo, texto distorcido, logótipos e estruturas finas). Os modelos de edição orientados por instrução existentes enfatizam edições semânticas de granularidade grossa e muitas vezes ignoram defeitos locais subtis ou alteram inadvertidamente o fundo, especialmente quando a região de interesse ocupa apenas uma pequena porção de uma entrada de resolução fixa. Apresentamos o RefineAnything, um modelo de refinamento baseado em difusão multimodal que suporta refinamento baseado em referência e sem referência. Com base na observação contraintuitiva de que o recorte e redimensionamento pode melhorar substancialmente a reconstrução local sob uma resolução de entrada VAE fixa, propomos Focus-and-Refine, uma estratégia de refinamento e colagem com foco regional que melhora a eficácia e eficiência do refinamento ao realocar o orçamento de resolução para a região-alvo, enquanto uma colagem com máscara de fusão garante a preservação estrita do fundo. Introduzimos ainda uma Perda de Consistência de Limite consciente da fronteira para reduzir artefactos de junção e melhorar a naturalidade da colagem. Para suportar este novo cenário, construímos o Refine-30K (20K amostras baseadas em referência e 10K amostras sem referência) e introduzimos o RefineEval, um benchmark que avalia tanto a fidelidade da região editada como a consistência do fundo. No RefineEval, o RefineAnything alcança fortes melhorias em relação a linhas de base competitivas e uma preservação de fundo quase perfeita, estabelecendo uma solução prática para o refinamento local de alta precisão. Página do Projeto: https://limuloo.github.io/RefineAnything/.
Apresentamos os Elastic Looped Transformers (ELT), uma classe de modelos generativos visuais altamente eficiente em parâmetros, baseada numa arquitetura recorrente de transformadores. Enquanto os modelos generativos convencionais dependem de pilhas profundas de camadas de transformadores únicas, a nossa abordagem emprega blocos de transformadores iterativos e com partilha de pesos para reduzir drasticamente a contagem de parâmetros, mantendo uma alta qualidade de síntese. Para treinar eficazmente estes modelos para geração de imagem e vídeo, propomos a ideia de Auto-Distilação Intra-Loop (ILSD), onde configurações de estudante (loops intermédios) são destiladas a partir da configuração de professor (loops máximos de treino) para garantir consistência ao longo da profundidade do modelo num único passo de treino. O nosso framework produz uma família de modelos elásticos a partir de uma única execução de treino, permitindo capacidade de inferência Any-Time com compromissos dinâmicos entre o custo computacional e a qualidade de geração, com a mesma contagem de parâmetros. O ELT desloca significativamente a fronteira de eficiência para a síntese visual. Com uma redução de 4 vezes na contagem de parâmetros em configurações iso-inference-compute, o ELT atinge um FID competitivo de 2.0 no ImageNet 256x256 condicionado por classe e um FVD de 72.8 no UCF-101 condicionado por classe.
A geração de relatórios de radiografia de tórax (CXR-RG) tem o potencial de aliviar substancialmente a carga de trabalho dos radiologistas. No entanto, os modelos convencionais autoregressivos de visão e linguagem (VLMs) sofrem com alta latência de inferência devido à decodificação sequencial de tokens. Os modelos baseados em difusão oferecem uma alternativa promissora através da geração paralela, mas ainda requerem múltiplas iterações de remoção de ruído. Comprimir a remoção de ruído multi-etapa para uma única etapa poderia reduzir ainda mais a latência, mas frequentemente degrada a coerência textual devido ao viés de campo médio introduzido por removedores de ruído fatorizados por token. Para enfrentar este desafio, propomos o ECHO, um VLM baseado em difusão (dVLM) eficiente para geração de relatórios de radiografia de tórax. O ECHO permite uma inferência estável de uma etapa por bloco através de uma nova estrutura de Distilação Condicional Direta (DCD), que mitiga a limitação do campo médio através da construção de supervisão não fatorizada a partir de trajetórias de difusão *on-policy* para codificar dependências conjuntas de tokens. Adicionalmente, introduzimos uma estratégia de treino de Difusão Assimétrica de Resposta (RAD) que melhora ainda mais a eficiência do treino enquanto mantém a eficácia do modelo. Experimentos extensivos demonstram que o ECHO supera os métodos autoregressivos mais avançados, melhorando as métricas RaTE e SemScore em 64,33% e 60,58%, respetivamente, enquanto alcança uma aceleração de inferência de 8 vezes sem comprometer a precisão clínica.
Os modelos de linguagem de grande porte (LLMs) e os agentes baseados neles estão cada vez mais sendo implantados como assistentes em planejamento e tomada de decisões. No entanto, a maioria dos sistemas existentes é implicitamente otimizada para um paradigma de interação de único principal, no qual o modelo é projetado para satisfazer os objetivos de um usuário dominante, cujas instruções são tratadas como a única fonte de autoridade e utilidade. Contudo, à medida que são integrados em fluxos de trabalho em equipe e ferramentas organizacionais, eles são cada vez mais exigidos para atender múltiplos usuários simultaneamente, cada um com funções, preferências e níveis de autoridade distintos, resultando em ambientes multi-usuário e multi-principal com conflitos inevitáveis, assimetria de informação e restrições de privacidade. Neste trabalho, apresentamos o primeiro estudo sistemático de agentes de LLM para múltiplos usuários. Começamos por formalizar a interação multi-usuário com agentes de LLM como um problema de decisão multi-principal, onde um único agente deve considerar múltiplos usuários com interesses potencialmente conflitantes e os desafios associados. Em seguida, introduzimos um protocolo de interação multi-usuário unificado e projetamos três cenários direcionados de teste de estresse para avaliar as capacidades dos LLMs atuais em seguir instruções, preservar a privacidade e coordenar. Nossos resultados revelam lacunas sistemáticas: LLMs de ponta frequentemente falham em manter uma priorização estável sob objetivos de usuários conflitantes, exibem violações de privacidade crescentes ao longo de interações multi-turno e sofrem com gargalos de eficiência quando a coordenação requer uma coleta iterativa de informações.
O pós-treinamento descentralizado de grandes modelos de linguagem utiliza técnicas de paralelismo de dados e de pipeline para dividir os dados e o modelo. Infelizmente, o pós-treinamento descentralizado pode ser vulnerável a ataques de envenenamento e backdoor por um ou mais participantes maliciosos. Vários trabalhos abordam ataques e defesas contra o paralelismo de dados descentralizado ou a aprendizagem federada. No entanto, os trabalhos existentes sobre a robustez do paralelismo de pipeline limitam-se a ataques de envenenamento. Tanto quanto sabemos, este artigo apresenta o primeiro ataque backdoor ao paralelismo de pipeline, concebido para desalinhar o modelo treinado. Na nossa configuração, o adversário controla um estágio intermédio do pipeline em vez de todo o modelo ou do conjunto de dados, tornando ataques existentes, como o envenenamento de dados, inaplicáveis. Os nossos resultados experimentais mostram que mesmo um adversário com limitações destas pode injetar o backdoor e causar o desalinhamento do modelo durante o pós-treinamento, independentemente do domínio ou conjunto de dados aprendido. Com o nosso ataque, a inclusão da palavra-chave (trigger) reduz a percentagem de alinhamento de 80% para 6%. Testámos ainda a robustez do nosso ataque aplicando um treino de alinhamento de segurança (safety alignment) ao modelo final, e demonstramos que o nosso ataque backdoor ainda tem sucesso em 60% dos casos.
À medida que os modelos de linguagem de grande escala (LLMs) evoluem para agentes autónomos de busca de informação de longo horizonte, a gestão da capacidade de contexto finito tornou-se um gargalo crítico. Os métodos existentes de gestão de contexto normalmente comprometem-se com uma única estratégia fixa ao longo de toda a trajetória. Estes desenhos estáticos podem funcionar bem em alguns estados, mas não conseguem adaptar-se à medida que a utilidade e a confiabilidade do contexto acumulado evoluem durante uma busca de longo horizonte. Para formalizar este desafio, introduzimos um quadro probabilístico que caracteriza o sucesso de longo horizonte através de duas dimensões complementares: eficiência de busca e precisão terminal. Com base nesta perspetiva, propomos o AgentSwing, um quadro de encaminhamento de gestão de contexto paralelo e adaptativo, consciente do estado. Em cada ponto de ativação, o AgentSwing expande múltiplos ramos geridos por contexto em paralelo e usa encaminhamento com antevisão (lookahead) para selecionar a continuação mais promissora. Experiências em diversos benchmarks e arquiteturas de agentes mostram que o AgentSwing supera consistentemente métodos estáticos robustos de gestão de contexto, frequentemente igualando ou excedendo o seu desempenho com até 3 vezes menos turnos de interação, enquanto também melhora o limite máximo de desempenho final de agentes web de longo horizonte. Para além dos ganhos empíricos, o quadro probabilístico proposto fornece uma lente fundamentada para analisar e projetar futuras estratégias de gestão de contexto para agentes de longo horizonte.
A compreensão humana da dinâmica de vídeos normalmente está fundamentada numa representação mental estruturada de entidades, ações e relações temporais, em vez de depender exclusivamente de raciocínio dedutivo imediato. Em contraste, os Video-LLMs existentes dependem largamente de um raciocínio não estruturado sobre vídeos, onde a evidência visual crítica é incorporada em descrições textuais prolixas e a causalidade temporal é frequentemente modelada de forma fraca. Isto leva a processos ineficientes e a inferências causais frágeis. Para colmatar esta lacuna cognitiva, propomos a construção de uma representação compacta de eventos salientes e das suas relações causais, a que chamamos Factos de Eventos Estruturados, antes da fase de raciocínio. Este *prior* estruturado serve como uma restrição explícita para promover um raciocínio conciso e fundamentado causalmente, tornando também a evidência intermédia mais fácil de verificar. Para treinar modelos eficazmente com base nestes factos estruturados, introduzimos o CausalFact-60K e um *pipeline* de treino de quatro fases que compreende alinhamento de factos, *warm-start* de formato, *warm-start* de pensamento e pós-treino baseado em aprendizagem por reforço. Durante a fase de AR, verificamos que esta estrutura introduz objetivos concorrentes, uma vez que a completude estrutural e a fidelidade causal têm de ser equilibradas com o comprimento do raciocínio, tornando a otimização difícil. Resolvemos este desafio formulando a otimização como um problema de Aprendizagem por Reforço Multiobjetivo (MORL) e otimizando explicitamente para a Fronteira de Pareto de modo a equilibrar estes compromissos. Como resultado, introduzimos o Factum-4B, que produz um raciocínio mais fiável e oferece um desempenho superior em tarefas desafiantes de compreensão de vídeo que exigem inferência temporal de granularidade fina.
Os modelos visão-linguagem (VLMs) continuam com dificuldades em tarefas de percepção visual, como compreensão espacial e reconhecimento de perspetivas. Um fator contribuinte plausível é que os conjuntos de dados de imagens naturais fornecem supervisão limitada para competências visuais de baixo nível. Isto motiva uma questão prática: pode a supervisão sintética direcionada, gerada a partir de apenas uma palavra-chave de tarefa como Ordem de Profundidade, resolver estas limitações? Para investigar esta questão, introduzimos a VisionFoundry, um pipeline de geração de dados sintéticos consciente da tarefa que recebe apenas o nome da tarefa como entrada e usa modelos de linguagem de grande escala (LLMs) para gerar perguntas, respostas e prompts de texto-para-imagem (T2I), sintetiza depois imagens com modelos T2I e verifica a consistência com um VLM proprietário, não necessitando de imagens de referência ou anotação humana. Usando a VisionFoundry, construímos o VisionFoundry-10K, um conjunto de dados sintético de resposta a perguntas visuais (VQA) contendo 10 mil triplos imagem-pergunta-resposta abrangendo 10 tarefas. Modelos treinados no VisionFoundry-10K alcançam melhorias substanciais em benchmarks de perceção visual: +7% no MMVP e +10% no CV-Bench-3D, preservando simultaneamente capacidades mais amplas e exibindo um comportamento de escalabilidade favorável à medida que o volume de dados aumenta. Os nossos resultados sugerem que a supervisão limitada e direcionada à tarefa é um contribuinte importante para este estrangulamento e que a supervisão sintética é um caminho promissor para um treino mais sistemático dos VLMs.
Muitas disciplinas apresentam questões de pesquisa em linguagem natural sobre grandes coleções de documentos, cujas respostas normalmente exigem evidências estruturadas, tradicionalmente obtidas através do desenho manual de um esquema de anotação e da rotulagem exaustiva do corpus, um processo lento e propenso a erros. Apresentamos o ScheMatiQ, que aproveita chamadas para um LLM de base para receber uma pergunta e um corpus e produzir um esquema e uma base de dados fundamentada, com uma interface web que permite orientar e revisar a extração. Em colaboração com especialistas de domínio, mostramos que o ScheMatiQ produz resultados que suportam análises do mundo real no direito e na biologia computacional. Disponibilizamos o ScheMatiQ como código aberto com uma interface web pública e convidamos especialistas de várias disciplinas a utilizá-lo com os seus próprios dados. Todos os recursos, incluindo o website, código fonte e vídeo de demonstração, estão disponíveis em: www.ScheMatiQ-ai.com.
Antecipar com precisão a evolução de cenas complexas e diversificadas requer modelos que representem a incerteza, simulem cadeias extensas de interação e explorem eficientemente muitos futuros plausíveis. No entanto, a maioria das abordagens existentes depende de previsões densas no espaço de vídeo ou latente, gastando capacidade substancial na aparência densa, e não nas trajetórias esparsas subjacentes dos pontos na cena. Isso torna a exploração em larga escala de hipóteses futuras dispendiosa e limita o desempenho quando o movimento multimodal de longo prazo é essencial. Nós abordamos este problema formulando a previsão da dinâmica futura de cena de conjunto aberto como uma inferência passo a passo sobre trajetórias esparsas de pontos. Nosso modelo de difusão autorregressivo avança nessas trajetórias por meio de transições curtas e localmente previsíveis, modelando explicitamente o crescimento da incerteza ao longo do tempo. Esta representação centrada na dinâmica permite a rápida geração de milhares de futuros diversos a partir de uma única imagem, opcionalmente guiada por restrições iniciais de movimento, mantendo a plausibilidade física e a coerência de longo alcance. Apresentamos ainda o OWM, um benchmark para previsão de movimento de conjunto aberto baseado em diversos vídeos do mundo real, para avaliar a precisão e a variabilidade das distribuições de trajetórias previstas sob a incerteza do mundo real. Nosso método iguala ou supera simuladores densos em precisão preditiva, enquanto alcança uma velocidade de amostragem ordens de grandeza maior, tornando a previsão futura de conjunto aberto escalável e prática. Página do projeto: http://compvis.github.io/myriad.
Os modelos de linguagem de grande escala (LLMs) passam por treinamento de alinhamento para evitar comportamentos prejudiciais, no entanto, as salvaguardas resultantes permanecem frágeis: jailbreaks frequentemente as contornam, e o ajuste fino em domínios específicos pode induzir um "desalinhamento emergente" que se generaliza amplamente. Se essa fragilidade reflete uma falta fundamental de organização interna coerente para a nocividade permanece incerto. Aqui, utilizamos a poda direcionada de pesos como uma intervenção causal para investigar a organização interna da nocividade em LLMs. Descobrimos que a geração de conteúdo prejudicial depende de um conjunto compacto de pesos que é geral entre os tipos de dano e distinto das capacidades benignas. Modelos alinhados exibem uma maior compressão dos pesos de geração de danos do que suas contrapartes não alinhadas, indicando que o alinhamento remodela internamente as representações prejudiciais – apesar da fragilidade dos guardiões de segurança no nível superficial. Esta compressão explica o desalinhamento emergente: se os pesos das capacidades prejudiciais são comprimidos, o ajuste fino que envolve esses pesos em um domínio pode desencadear um desalinhamento amplo. Consistentemente, a poda dos pesos de geração de danos em um domínio restrito reduz substancialmente o desalinhamento emergente. Notavelmente, a capacidade de geração de conteúdo prejudicial dos LLMs está dissociada de como eles reconhecem e explicam tal conteúdo. Juntos, esses resultados revelam uma estrutura interna coerente para a nocividade em LLMs que pode servir como base para abordagens de segurança mais fundamentadas.
A otimização de *prompts* melhora os modelos de linguagem sem atualizar os seus pesos através da procura de um *prompt* de sistema melhor, mas a sua eficácia varia amplamente entre tarefas. Estudamos o que torna uma tarefa passível de otimização de *prompts*. Mostramos que a variância da recompensa entre diferentes *prompts* de sistema pode ser decomposta em dois componentes: a variância entre as respostas, que capta a estocasticidade da geração, e a variância entre os *prompts* de sistema, que capta as diferenças na qualidade dos *prompts* de sistema. A otimização de *prompts* tem sucesso quando a variância entre os *prompts* de sistema é suficientemente grande, mas falha quando a variância entre as respostas domina a variância dos *prompts* de sistema. Surpreendentemente, mostramos ainda que a escalada para mais *prompts* de utilizador pode prejudicar a otimização ao reduzir a variância entre os *prompts* de sistema, especialmente em conjuntos de dados heterogéneos onde diferentes *prompts* de utilizador favorecem diferentes *prompts* de sistema. Motivados por esta perceção, propomos o **p1**, um método simples de filtragem de *prompts* de utilizador que seleciona um pequeno subconjunto de *prompts* de utilizador com alta variância entre os *prompts* de sistema candidatos. Este subconjunto de *prompts* de utilizador permite distinguir um bom *prompt* de sistema de um mau, facilitando a otimização do sistema. Experiências em benchmarks de raciocínio mostram que o **p1** melhora substancialmente a otimização de *prompts* em comparação com o treino no conjunto de dados completo e supera *baselines* fortes como o GEPA. Notavelmente, o treino em apenas dois *prompts* do AIME 24 produz um *prompt* de sistema que generaliza bem para outros benchmarks de raciocínio.
**Versão 1 (Mais Formal e Literal):** À medida que as redes neurais de grafos equivariantes a SE(3) amadurecem como uma ferramenta central para a modelagem atomística 3D, melhorar sua eficiência, expressividade e consistência física tornou-se um desafio central para aplicações em larga escala. Neste trabalho, apresentamos o EquiformerV3, a terceira geração do Transformer de atenção em grafos equivariante a SE(3), projetado para avançar em todas as três dimensões: eficiência, expressividade e generalidade. Com base no EquiformerV2, temos os três avanços principais a seguir. Primeiro, otimizamos a implementação de software, alcançando um ganho de velocidade de 1,75 vezes. Segundo, introduzimos modificações simples e eficazes no EquiformerV2, incluindo normalização de camada mesclada equivariante, hiperparâmetros aprimorados para a rede *feedforward* e atenção com corte de raio suave. Terceiro, propomos ativações SwiGLU-S² para incorporar interações de muitos corpos para melhor expressividade teórica e para preservar a equivariância estrita enquanto reduz a complexidade da amostragem de grades S². Juntas, as ativações SwiGLU-S² e a atenção com corte suave permitem a modelagem precisa de superfícies de energia potencial (PES) que variam suavemente, generalizando o EquiformerV3 para tarefas que requerem simulações que conservam energia e derivadas de ordem superior da PES. Com essas melhorias, o EquiformerV3 treinado com a tarefa auxiliar de remoção de ruído de estruturas fora do equilíbrio (DeNS) alcança resultados de última geração no OC20, OMat24 e Matbench Discovery. **Versão 2 (Mais Fluida e Integrada):** O amadurecimento das redes neurais de grafos equivariantes a SE(3) como ferramenta fundamental para a modelagem atomística 3D coloca a melhoria de sua eficiência, expressividade e consistência física como um desafio primordial para aplicações em larga escala. Este trabalho introduz o EquiformerV3, a terceira geração do Transformer de atenção em grafos com equivariância SE(3), concebido para progredir simultaneamente em três frentes: eficiência, expressividade e generalidade. A partir do EquiformerV2, realizamos três avanços principais. Primeiramente, uma otimização da implementação de software resultou em um ganho de velocidade de 1,75 vezes. Em segundo lugar, foram introduzidas modificações simples e eficazes no EquiformerV2, como a normalização de camada mesclada equivariante, a melhoria dos hiperparâmetros da rede *feedforward* e um mecanismo de atenção com corte de raio suave. Por fim, propomos as funções de ativação SwiGLU-S², que incorporam interações de muitos corpos para ampliar a expressividade teórica, mantendo a equivariância estrita e reduzindo a complexidade computacional da amostragem em grades S². A combinação das ativações SwiGLU-S² com o mecanismo de atenção de corte suave viabiliza a modelagem precisa de superfícies de energia potencial (PES) de variação suave, conferindo ao EquiformerV3 generalidade para tarefas que exigem simulações com conservação de energia e o cálculo de derivadas de ordem superior da PES. Graças a essas melhorias, o EquiformerV3, quando treinado com a tarefa auxiliar de desruídos de estruturas em não equilíbrio (DeNS), atinge resultados state-of-the-art nos conjuntos de dados OC20, OMat24 e Matbench Discovery.
O raciocínio em domínios com grande densidade de conhecimento continua a ser um desafio, pois as etapas intermediárias frequentemente não são verificáveis localmente: ao contrário da matemática ou do código, a avaliação da correção de uma etapa pode exigir a síntese de pistas a partir de grandes fontes externas de conhecimento. Como resultado, erros subtis podem propagar-se através dos traços de raciocínio, podendo nunca ser detetados. Trabalhos anteriores propuseram modelos de recompensa de processo (PRMs), incluindo variantes aumentadas por recuperação de informação, mas estes métodos operam *a posteriori*, classificando trajetórias completas, o que impede a sua integração em procedimentos de inferência dinâmica. Aqui, introduzimos os Agentes de Recompensa de Processo (PRA), um método de teste para fornecer recompensas fundamentadas no domínio, *online* e passo a passo a uma política congelada. Em contraste com PRMs aumentados por recuperação anteriores, o PRA permite que a descodificação baseada em pesquisa classifique e pode trajetórias candidatas em cada etapa de geração. Experiências em múltiplos benchmarks de raciocínio médico demonstram que o PRA supera consistentemente linhas de base fortes, atingindo 80,8% de precisão no MedQA com o Qwen3-4B, um novo estado da arte na escala de 4B. É importante salientar que o PRA generaliza para modelos de política congelada não vistos, variando de 0,5B a 8B de parâmetros, melhorando a sua precisão em até 25,7% sem quaisquer atualizações do modelo de política. De forma mais ampla, o PRA sugere um paradigma no qual os sistemas de raciocínio congelados são dissociados de módulos de recompensa específicos do domínio, permitindo a implantação de novas arquiteturas base em domínios complexos sem necessidade de retreino.
A interpretação é essencial para decifrar a linguagem da arte: o público comunica-se com os artistas recuperando o significado dos artefactos visuais. No entanto, os avaliadores atuais de Arte Generativa (GenArt) permanecem fixados na qualidade superficial da imagem ou na aderência literal ao prompt, falhando em avaliar o significado simbólico ou abstrato mais profundo pretendido pelo criador. Colmatamos esta lacuna formalizando uma teoria semiótica computacional de base peirciana que modela a Interação Humano-Arte Generativa (HGI) como uma semiose em cascata. Este quadro revela que o significado artístico é transmitido através de três modos - icónico, simbólico e indéxico - mas os avaliadores existentes operam fortemente dentro do modo icónico, permanecendo estruturalmente cegos aos dois últimos. Para superar esta cegueira estrutural, propomos o SemJudge. Este avaliador avalia explicitamente o significado simbólico e indéxico na HGI através de um Grafo de Semiose Hierárquico (HSG) que reconstrói o processo de construção de significado desde o prompt até ao artefacto gerado. Experiências quantitativas extensivas mostram que o SemJudge se alinha mais de perto com os julgamentos humanos do que os avaliadores anteriores num benchmark de arte intensivo em interpretação. Estudos com utilizadores demonstram ainda que o SemJudge produz interpretações artísticas mais profundas e perspicazes, pavimentando assim o caminho para a GenArt ultrapassar a geração de imagens "bonitas" e tornar-se um meio capaz de expressar a experiência humana complexa. Página do projeto: https://github.com/songrise/SemJudge.
Este trabalho investiga a fragilidade fundamental dos modelos estado da arte de visão e linguagem (VLMs) sob transformações geométricas básicas. Embora os VLMs modernos se destaquem em tarefas semânticas, como reconhecer objetos em orientações canônicas e descrever cenas complexas, eles exibem falhas sistemáticas em um nível mais fundamental: a falta de invariância e equivariância espacial robustas necessárias para determinar com confiabilidade a identidade de um objeto sob rotações, escalonamentos e transformações de identidade simples. Demonstramos essa limitação por meio de uma avaliação sistemática em diversos domínios visuais, incluindo desenhos simbólicos, fotografias naturais e arte abstrata. O desempenho cai drasticamente à medida que o conteúdo semântico se torna esparso, e esse comportamento é observado em diferentes arquiteturas, capacidades de modelo e estratégias de *prompting*. No geral, nossos resultados revelam uma lacuna sistemática entre a compreensão semântica e o raciocínio espacial nos VLMs atuais, destacando a necessidade de uma base geométrica mais sólida nos futuros sistemas multimodais.
A geração de rostos falantes tem ganhado atenção significativa como uma aplicação central de modelos generativos. Para melhorar a expressividade e o realismo dos vídeos sintetizados, a edição de emoções em vídeos de rostos falantes desempenha um papel crucial. No entanto, as abordagens existentes frequentemente limitam a flexibilidade expressiva e lutam para gerar emoções estendidas. Métodos baseados em rótulos representam emoções com categorias discretas, que falham em capturar uma ampla gama de emoções. Métodos baseados em áudio podem aproveitar sinais de fala emocionalmente ricos - e até mesmo beneficiar-se da síntese expressiva de texto-para-fala (TTS) - mas falham em expressar as emoções-alvo porque as emoções e os conteúdos linguísticos estão entrelaçados em discursos emocionais. Por outro lado, métodos baseados em imagens dependem de imagens de referência-alvo para orientar a transferência de emoção, mas exigem vistas frontais de alta qualidade e enfrentam desafios na aquisição de dados de referência para emoções estendidas (por exemplo, sarcasmo). Para superar essas limitações, propomos a Transferência de Emoção Cross-Modal (C-MET), uma abordagem nova que gera expressões faciais baseadas em discursos através da modelagem de vetores semânticos de emoção entre os espaços de características de fala e visuais. A C-MET aproveita um codificador de áudio pré-treinado em larga escala e um codificador de expressão facial desembaraçado para aprender vetores semânticos de emoção que representam a diferença entre dois embeddings emocionais diferentes entre modalidades. Experimentos extensos nos conjuntos de dados MEAD e CREMA-D demonstram que o nosso método melhora a precisão emocional em 14% em relação aos métodos state-of-the-art, enquanto gera vídeos expressivos de rostos falantes - mesmo para emoções estendidas não vistas. Código, checkpoint e demo estão disponíveis em https://chanhyeok-choi.github.io/C-MET/
Os modelos de difusão e suas variações, como os fluxos retificados, geram imagens diversas e de alta qualidade, mas ainda são limitados pela amostragem iterativa lenta causada pelos caminhos generativos altamente curvos que aprendem. Uma causa importante da alta curvatura, como demonstrado por trabalhos anteriores, é a independência entre a distribuição fonte (Gaussiana padrão) e a distribuição de dados. Neste trabalho, abordamos essa limitação com duas contribuições complementares. Primeiro, tentamos afastar-nos da suposição Gaussiana padrão introduzindo o κ-FC, uma formulação geral que condiciona a distribuição fonte a um sinal arbitrário κ que a alinha melhor com a distribuição de dados. Em seguida, apresentamos o MixFlow, uma estratégia de treinamento simples mas eficaz que reduz as curvaturas do caminho generativo e melhora consideravelmente a eficiência da amostragem. O MixFlow treina um modelo de fluxo em misturas lineares de uma distribuição incondicional fixa e uma distribuição baseada em κ-FC. Esta mistura simples melhora o alinhamento entre a fonte e os dados, proporciona melhor qualidade de geração com menos etapas de amostragem necessárias e acelera consideravelmente a convergência do treinamento. Em média, nosso procedimento de treinamento melhora a qualidade da geração em 12% no FID em comparação com o fluxo retificado padrão e 7% em relação às linhas de base anteriores sob um orçamento fixo de amostragem. Código disponível em: https://github.com/NazirNayal8/MixFlow{https://github.com/NazirNayal8/MixFlow}
A geração de vídeo controlável por câmara visa sintetizar vídeos com movimentos de câmara flexíveis e fisicamente plausíveis. No entanto, os métodos existentes ou fornecem controlo de câmara impreciso a partir de instruções textuais ou dependem de parâmetros de trajetória de câmara manuais e laboriosos, limitando a sua utilização em cenários automatizados. Para resolver estas questões, propomos um novo modelo Visão-Linguagem-Câmara, denominado CT-1 (Camera Transformer 1), um modelo especializado concebido para transferir conhecimento de raciocínio espacial para a geração de vídeo, através da estimativa precisa de trajetórias de câmara. Construído com base em módulos de visão-linguagem e num modelo Diffusion Transformer, o CT-1 emprega uma Perda de Regularização Baseada em Wavelet no domínio da frequência para aprender eficazmente distribuições complexas de trajetórias de câmara. Estas trajetórias são integradas num modelo de difusão de vídeo para permitir um controlo de câmara espacialmente consciente que se alinha com as intenções do utilizador. Para facilitar o treino do CT-1, concebemos um pipeline dedicado de curadoria de dados e construímos o CT-200K, um conjunto de dados de larga escala contendo mais de 47M de frames. Os resultados experimentais demonstram que a nossa estrutura preenche com sucesso a lacuna entre o raciocínio espacial e a síntese de vídeo, produzindo vídeos controláveis por câmara fiéis e de alta qualidade, e melhorando a precisão do controlo de câmara em 25,7% em relação a métodos anteriores.
A quantização aditiva permite a compressão extrema de LLMs com desquantização O(1) por tabela de consulta, tornando-a atrativa para implantação em dispositivos de borda. No entanto, com precisão de 2 bits, ela frequentemente falha catastróficamente, mesmo com busca extensiva e ajuste fino. Demonstramos que o principal gargalo é a inicialização do livro de códigos. A inicialização sequencial gananciosa frequentemente coloca o modelo em regiões de otimização pobres, as quais a busca por feixe e o PV-tuning subsequentes têm dificuldade em superar. Analisamos este comportamento através da razão representacional ho = N/KM, que caracteriza a relação entre grupos de pesos e a capacidade do livro de códigos, e propomos o OA-EM, um método de inicialização EM consciente da saída que utiliza a distância de Mahalanobis ponderada pela Hessiana. Através de taxas de compressão, orçamentos de busca e três arquiteturas (Llama 3.2 3B, Llama 3.1 8B, Qwen 2.5 3B), o OA-EM produz consistentemente soluções melhores após o PV-tuning e domina a fronteira qualidade-computação. A severidade do gargalo escala com ho: moderada a 3 bpp, mas extrema a 2 bpp, onde uma má inicialização pode degradar a perplexidade em ordens de magnitude. De forma mais ampla, nossos resultados destacam a importância da geometria de otimização em espaços de modelos comprimidos, onde a inicialização pode dominar a busca e o ajuste fino subsequentes.
A geração Texto-para-Áudio-Vídeo (T2AV) está rapidamente a tornar-se uma interface central para a criação de media, mas a sua avaliação permanece fragmentada. Os benchmarks existentes avaliam maioritariamente o áudio e o vídeo de forma isolada ou dependem de semelhanças de embeddings de baixa resolução, falhando em capturar a correção conjunta de alto nível exigida por instruções realistas. Apresentamos o AVGen-Bench, um benchmark orientado a tarefas para a geração T2AV, que apresenta instruções de alta qualidade em 11 categorias do mundo real. Para suportar uma avaliação abrangente, propomos um quadro de avaliação multi-granular que combina modelos especializados leves com Modelos de Linguagem de Grande Escala Multimodais (MLLMs), permitindo a avaliação desde a qualidade perceptual até à controlabilidade semântica de alto nível. A nossa avaliação revela um fosso pronunciado entre uma forte estética audiovisual e uma fraca fiabilidade semântica, incluindo falhas persistentes na renderização de texto, coerência de discurso, raciocínio físico e uma quebra universal no controlo de afinação musical. O código e os recursos do benchmark estão disponíveis em http://aka.ms/avgenbench.
Embora os Modelos de Linguagem de Grande Porte (LLMs) atinjam alto desempenho em benchmarks matemáticos padrão, seus processos de raciocínio subjacentes permanecem altamente superajustados à formatação textual convencional. Propomos um *pipeline* de perturbação composto por 14 técnicas para avaliar a robustez do raciocínio dos LLMs. Aplicamos este *pipeline* ao conjunto de dados AIME 2024 e avaliamos 8 modelos state-of-the-art no *benchmark* resultante. Enquanto os modelos de fronteira exibem resiliência, os modelos de raciocínio de pesos abertos sofrem colapsos catastróficos (quedas de até 55% na precisão média entre as perturbações e até 100% em algumas), expondo uma fragilidade estrutural. Para separar ainda mais as falhas de análise mecânica das falhas de raciocínio subsequente, isolamos estritamente a capacidade de memória de trabalho dos modelos, forçando-os a resolver múltiplos problemas matemáticos não perturbados sequencialmente dentro de uma única janela de contexto. Nossos resultados indicam que modelos de pesos abertos, variando de 7B a 120B de parâmetros, e o Claude Opus 4.6 exibem decaimento de precisão nos problemas subsequentes. Esta degradação demonstra que as etapas intermediárias de raciocínio poluem permanentemente os mecanismos padrão de atenção densa. Argumentamos que, para alcançar um raciocínio confiável, as arquiteturas futuras de raciocínio devem integrar reinicializações contextuais explícitas dentro da própria Cadeia de Pensamento (*Chain-of-Thought*) de um modelo, levantando questões fundamentais em aberto sobre a granularidade ideal das tarefas atômicas de raciocínio.
Os benchmarks padrão de LLM avaliam o turno do assistente: o modelo gera uma resposta a uma entrada, um verificador pontua a correção e a análise termina. Este paradigma deixa sem medição se o LLM codifica qualquer consciência do que segue a resposta do assistente. Propomos a geração do turno do usuário como uma sonda para esta lacuna: dado um contexto de conversa com uma consulta do usuário e a resposta do assistente, permitimos que um modelo gere sob o papel do usuário. Se os pesos do modelo codificarem consciência da interação, o turno do usuário gerado será um acompanhamento fundamentado que reage ao contexto precedente. Através de experimentos com 11 LLMs de pesos abertos (Qwen3.5, gpt-oss, GLM) e 5 conjuntos de dados (raciocínio matemático, seguimento de instruções, conversação), mostramos que a consciência da interação é dissociada da precisão na tarefa. Em particular, na família Qwen3.5, a precisão no GSM8K escala de 41% (0.8B) para 96,8% (397B-A17B), enquanto as taxas de acompanhamento genuíno sob geração determinística permanecem próximas de zero. Em contraste, uma amostragem com temperatura mais alta revela que a consciência da interação está latente, com taxas de acompanhamento atingindo 22%. Perturbações controladas validam que a sonda proposta mede uma propriedade real do modelo, e o pós-treinamento orientado para colaboração no Qwen3.5-2B demonstra um aumento nas taxas de acompanhamento. Nossos resultados mostram que a geração do turno do usuário captura uma dimensão do comportamento do LLM, a consciência da interação, que é inexplorada e invisível com os benchmarks atuais focados apenas no assistente.
O pensamento criativo é um aspecto fundamental da cognição humana, e o pensamento divergente - a capacidade de gerar ideias novas e variadas - é amplamente considerado seu motor gerador central. Os grandes modelos de linguagem (LLMs) demonstraram recentemente um desempenho impressionante em testes de pensamento divergente, e trabalhos anteriores mostraram que modelos com maior desempenho em tarefas tendem a estar mais alinhados com a atividade cerebral humana. No entanto, os estudos existentes sobre o alinhamento cérebro-LLM concentraram-se em tarefas passivas e não criativas. Aqui, exploramos o alinhamento cerebral durante o pensamento criativo usando dados de ressonância magnética funcional (fMRI) de 170 participantes que realizaram a Tarefa de Usos Alternativos (AUT). Extraímos representações de LLMs com tamanhos variados (270M-72B) e medimos o alinhamento com as respostas cerebrais por meio da Análise de Similaridade Representacional (RSA), visando as redes de modo padrão e frontoparietal relacionadas à criatividade. Descobrimos que o alinhamento cérebro-LLM escala com o tamanho do modelo (apenas na rede de modo padrão) e com a originalidade da ideia (ambas as redes), com os efeitos mais fortes no início do processo criativo. Mostramos ainda que os objetivos de pós-treinamento moldam o alinhamento de formas funcionalmente seletivas: um modelo Llama-3.1-8B-Instruct otimizado para criatividade preserva o alinhamento com respostas neurais de alta criatividade, enquanto reduz o alinhamento com as de baixa criatividade; um modelo ajustado para comportamento humano eleva o alinhamento com ambos; e uma variante treinada para raciocínio mostra o padrão oposto, sugerindo que o treinamento em cadeia de pensamento (chain-of-thought) direciona as representações para longe da geometria neural criativa e em direção ao processamento analítico. Estes resultados demonstram que os objetivos de pós-treinamento remodelam seletivamente as representações dos LLMs em relação à geometria neural do pensamento criativo humano.
A amostragem especulativa (SpS) tem sido bem-sucedida em acelerar a taxa de transferência de decodificação de modelos de linguagem grandes autorregressivos ao aproveitar modelos esboço menores. A SpS impõe rigorosamente que a distribuição gerada corresponda à do LLM verificador. Esta restrição é desnecessária, uma vez que variações leves da distribuição do verificador, como amostragem com top-k ou temperatura, também seriam aceitáveis. A amostragem de aceitação típica (TAS) atenua este problema ao aceitar mais tokens usando heurísticas baseadas em entropia. No entanto, esta abordagem distorce a distribuição do verificador, potencialmente degradando a qualidade da saída quando o verificador codifica informações críticas. Neste trabalho, formalizamos o algoritmo de amostragem especulativa através da lente da otimização com restrições. Com base nesta formulação, propomos o Cactus (amostragem especulativa com aceitação restrita), um método que garante uma divergência controlada da distribuição do verificador e o aumento das taxas de aceitação. Resultados empíricos em uma ampla gama de benchmarks confirmam a eficácia da nossa abordagem.