Artigos de pesquisa em IA selecionados diariamente com traduções
O desempenho dos Modelos de Linguagem de Grande Escala (LLMs) é fundamentalmente determinado pelas informações contextuais fornecidas durante a inferência. Este estudo introduz a Engenharia de Contexto, uma disciplina formal que transcende o simples design de prompts para abranger a otimização sistemática de cargas de informação para LLMs. Apresentamos uma taxonomia abrangente que decompõe a Engenharia de Contexto em seus componentes fundamentais e nas implementações sofisticadas que os integram em sistemas inteligentes. Primeiro, examinamos os componentes fundamentais: recuperação e geração de contexto, processamento de contexto e gerenciamento de contexto. Em seguida, exploramos como esses componentes são integrados arquitetonicamente para criar implementações de sistemas sofisticadas: geração aumentada por recuperação (RAG), sistemas de memória e raciocínio integrado a ferramentas, e sistemas multiagentes. Através desta análise sistemática de mais de 1300 artigos de pesquisa, nosso estudo não apenas estabelece um roteiro técnico para o campo, mas também revela uma lacuna crítica de pesquisa: existe uma assimetria fundamental entre as capacidades dos modelos. Embora os modelos atuais, aumentados por engenharia de contexto avançada, demonstrem proficiência notável na compreensão de contextos complexos, eles exibem limitações pronunciadas na geração de saídas igualmente sofisticadas e de longo formato. Abordar essa lacuna é uma prioridade definidora para pesquisas futuras. Por fim, este estudo fornece um framework unificado tanto para pesquisadores quanto para engenheiros que avançam na IA consciente do contexto.
Os recentes avanços em modelos de visão e linguagem (VLMs) têm melhorado o desempenho ao aumentar o número de tokens visuais, que frequentemente são significativamente mais longos do que os tokens de texto. No entanto, observamos que a maioria dos cenários do mundo real não exige um número tão extenso de tokens visuais. Embora o desempenho caia significativamente em um pequeno subconjunto de tarefas relacionadas a OCR, os modelos ainda apresentam precisão na maioria das outras tarefas gerais de VQA (Visual Question Answering) com apenas 1/4 da resolução. Portanto, propomos processar dinamicamente amostras distintas com diferentes resoluções e apresentamos um novo paradigma para compressão de tokens visuais, denominado VisionThink. Ele começa com uma imagem reduzida e decide de forma inteligente se ela é suficiente para resolver o problema. Caso contrário, o modelo pode emitir um token especial para solicitar a imagem em alta resolução. Em comparação com os métodos existentes de VLM Eficiente que comprimem tokens usando taxas de poda ou limiares fixos, o VisionThink decide autonomamente se deve comprimir os tokens caso a caso. Como resultado, ele demonstra uma forte capacidade de compreensão visual detalhada em tarefas relacionadas a OCR e, ao mesmo tempo, economiza uma quantidade substancial de tokens visuais em tarefas mais simples. Adotamos o aprendizado por reforço e propomos a estratégia LLM-as-Judge para aplicar com sucesso o RL a tarefas gerais de VQA. Além disso, projetamos cuidadosamente uma função de recompensa e um mecanismo de penalidade para alcançar uma taxa de redimensionamento de imagem estável e razoável. Experimentos extensivos demonstram a superioridade, eficiência e eficácia do nosso método. Nosso código está disponível em https://github.com/dvlab-research/VisionThink.
Apresentamos o pi^3, uma rede neural feed-forward que oferece uma nova abordagem para a reconstrução de geometria visual, rompendo a dependência de uma visão de referência fixa convencional. Métodos anteriores frequentemente ancoram suas reconstruções a um ponto de vista designado, um viés indutivo que pode levar a instabilidades e falhas se a referência for subótima. Em contraste, o pi^3 emprega uma arquitetura totalmente permutação-equivariante para prever poses de câmera invariantes a transformações afins e mapas de pontos locais invariantes à escala, sem a necessidade de quadros de referência. Esse design torna nosso modelo intrinsecamente robusto à ordem de entrada e altamente escalável. Essas vantagens permitem que nossa abordagem simples e livre de vieses alcance desempenho de ponta em uma ampla gama de tarefas, incluindo estimativa de pose de câmera, estimativa de profundidade monocromática/em vídeo e reconstrução de mapas de pontos densos. Códigos e modelos estão disponíveis publicamente.
Este artigo aborda o desafio da síntese de visões de alta fidelidade de humanos utilizando vídeos de visão esparsa como entrada. Métodos anteriores resolvem o problema de observação insuficiente empregando modelos de difusão 4D para gerar vídeos em novos pontos de vista. No entanto, os vídeos gerados por esses modelos frequentemente carecem de consistência espaço-temporal, prejudicando a qualidade da síntese de visões. Neste artigo, propomos um novo processo iterativo de desnudamento deslizante para aprimorar a consistência espaço-temporal do modelo de difusão 4D. Especificamente, definimos uma grade latente na qual cada latente codifica a imagem, a pose da câmera e a pose humana para um determinado ponto de vista e timestamp, em seguida, desnudamos alternadamente a grade latente ao longo das dimensões espacial e temporal com uma janela deslizante, e finalmente decodificamos os vídeos nos pontos de vista alvo a partir dos latentes desnudados correspondentes. Através da iteração deslizante, a informação flui suficientemente através da grade latente, permitindo que o modelo de difusão obtenha um grande campo receptivo e, assim, melhore a consistência 4D da saída, ao mesmo tempo em que torna o consumo de memória da GPU viável. Os experimentos realizados nos conjuntos de dados DNA-Rendering e ActorsHQ demonstram que nosso método é capaz de sintetizar vídeos de novos pontos de vista de alta qualidade e consistência, superando significativamente as abordagens existentes. Consulte nossa página do projeto para demonstrações interativas e resultados em vídeo: https://diffuman4d.github.io/.
A generalização de comprimento, a capacidade de resolver problemas com sequências mais longas do que aquelas observadas durante o treinamento, representa um desafio central para os grandes modelos de linguagem (LLMs) baseados em Transformers. Embora os estudos existentes tenham se concentrado predominantemente em abordagens orientadas por dados para operações aritméticas e tarefas de manipulação simbólica, essas abordagens tendem a ser específicas para cada tarefa, com desempenho geral limitado. Para buscar uma solução mais geral, este artigo foca em um caso mais amplo de problemas de raciocínio que são computáveis, ou seja, problemas que algoritmos podem resolver e, portanto, podem ser resolvidos pela Máquina de Turing. A partir dessa perspectiva, este artigo propõe o Turing MAchine Imitation Learning (TAIL) para melhorar a capacidade de generalização de comprimento dos LLMs. O TAIL sintetiza dados de cadeia de pensamentos (CoT) que imitam o processo de execução de uma Máquina de Turing por meio de programas de computador, expandindo linearmente os passos de raciocínio em estados atômicos para aliviar o aprendizado por atalhos e incorporando um mecanismo explícito de busca de memória para reduzir as dificuldades de acesso dinâmico e de longo alcance a dados em operações elementares. Para validar a confiabilidade e universalidade do TAIL, construímos um conjunto de dados sintético desafiador, abrangendo 8 classes de algoritmos e 18 tarefas. Sem recursos adicionais, o TAIL melhora significativamente a capacidade de generalização de comprimento, bem como o desempenho do Qwen2.5-7B em várias tarefas, utilizando apenas dados sintéticos, superando métodos anteriores e o DeepSeek-R1. Os resultados experimentais revelam que os conceitos-chave da Máquina de Turing, em vez dos estilos de pensamento, são indispensáveis para o TAIL na generalização de comprimento, através dos quais o modelo exibe comportamentos de leitura e escrita consistentes com as propriedades da Máquina de Turing em suas camadas de atenção. Este trabalho fornece uma direção promissora para pesquisas futuras no aprendizado de raciocínio de LLMs a partir de dados sintéticos.
A geração controlada de legendas é essencial para o alinhamento multimodal preciso e o seguimento de instruções, mas os modelos existentes frequentemente carecem de controle refinado e protocolos de avaliação confiáveis. Para preencher essa lacuna, apresentamos o Projeto AnyCap, uma solução integrada que abrange modelo, conjunto de dados e avaliação. Introduzimos o AnyCapModel (ACM), uma estrutura leve e plug-and-play que melhora a controlabilidade dos modelos base existentes para legendagem omni-modal sem a necessidade de retreinar o modelo base. O ACM reutiliza as legendas originais dos modelos base, ao mesmo tempo que incorpora instruções do usuário e características modais para gerar legendas aprimoradas. Para remediar a escassez de dados em legendagem multimodal controlável, construímos o AnyCapDataset (ACD), que abrange três modalidades, 28 tipos de instruções do usuário e 300 mil entradas de dados de alta qualidade. Além disso, propomos o AnyCapEval, um novo benchmark que fornece métricas de avaliação mais confiáveis para legendagem controlável, desacoplando a precisão do conteúdo e a fidelidade estilística. O ACM melhora significativamente a qualidade das legendas em um conjunto diversificado de modelos base no AnyCapEval. Notavelmente, o ACM-8B aumenta as pontuações de conteúdo do GPT-4o em 45% e as pontuações de estilo em 12%, além de alcançar ganhos substanciais em benchmarks amplamente utilizados, como MIA-Bench e VidCapBench.
A Adaptação de Baixa Classificação (LoRA) tornou-se um padrão amplamente adotado para o ajuste fino eficiente em parâmetros de grandes modelos de linguagem (LLMs), reduzindo significativamente as demandas de memória e computação. No entanto, desafios permanecem, incluindo encontrar estratégias ótimas de inicialização ou mitigar a sobreparametrização na fatoração de matrizes de baixa classificação. Neste trabalho, propomos uma abordagem inovadora que aborda ambos os desafios simultaneamente dentro de um framework unificado. Nosso método trata um conjunto de matrizes LoRA de classificação fixa como uma variedade suave. Considerar os adaptadores como elementos nesta variedade elimina a sobreparametrização, enquanto determinar a direção da diminuição mais rápida da perda ao longo da variedade fornece a inicialização. Cuidados especiais são tomados para obter uma implementação numericamente estável e computacionalmente eficiente do nosso método, utilizando as melhores práticas da álgebra linear numérica e da otimização Riemanniana. Resultados experimentais em arquiteturas de LLM e modelos de difusão demonstram que o RiemannLoRA melhora consistentemente tanto a velocidade de convergência quanto o desempenho final em relação ao LoRA padrão e suas modificações state-of-the-art.
Apresentamos o Voxtral Mini e o Voxtral Small, dois modelos multimodais de chat de áudio. O Voxtral foi treinado para compreender tanto áudio falado quanto documentos de texto, alcançando desempenho de ponta em uma ampla gama de benchmarks de áudio, mantendo ao mesmo tempo fortes capacidades com texto. O Voxtral Small supera vários modelos de código fechado, sendo compacto o suficiente para ser executado localmente. Uma janela de contexto de 32K permite que o modelo processe arquivos de áudio com duração de até 40 minutos e longas conversas com múltiplas interações. Também contribuímos com três benchmarks para avaliar modelos de compreensão de fala em conhecimento e curiosidades. Ambos os modelos Voxtral são lançados sob a licença Apache 2.0.
O raciocínio espacial em 3D é central para a cognição humana e indispensável para tarefas corporificadas, como navegação e manipulação. No entanto, os modelos estado da arte de visão e linguagem (VLMs) frequentemente enfrentam dificuldades em tarefas tão simples quanto prever como uma cena parecerá após um movimento egocêntrico: eles percebem imagens 2D, mas carecem de um modelo interno de dinâmica 3D. Portanto, propomos o MindJourney, uma estrutura de escalonamento em tempo de teste que confere a um VLM essa capacidade ausente, acoplando-o a um modelo de mundo controlável baseado em difusão de vídeo. O VLM esboça iterativamente uma trajetória concisa da câmera, enquanto o modelo de mundo sintetiza a visão correspondente em cada etapa. O VLM então raciocina sobre essa evidência multiview coletada durante a exploração interativa. Sem qualquer ajuste fino, nosso MindJourney alcança um aumento médio de mais de 8% no benchmark representativo de raciocínio espacial SAT, mostrando que o emparelhamento de VLMs com modelos de mundo para escalonamento em tempo de teste oferece uma rota simples e plug-and-play para um raciocínio 3D robusto. Enquanto isso, nosso método também melhora a inferência em tempo de teste de VLMs treinados por aprendizado por reforço, o que demonstra o potencial de nosso método que utiliza modelos de mundo para escalonamento em tempo de teste.
Produzir animações faciais expressivas a partir de imagens estáticas é uma tarefa desafiadora. Métodos anteriores que dependem de priors geométricos explícitos (por exemplo, marcos faciais ou 3DMM) frequentemente sofrem com artefatos em reencenação cruzada e têm dificuldade em capturar emoções sutis. Além disso, as abordagens existentes não oferecem suporte para animação de múltiplos personagens, pois as características de direção de diferentes indivíduos frequentemente interferem umas nas outras, complicando a tarefa. Para enfrentar esses desafios, propomos o FantasyPortrait, um framework baseado em transformadores de difusão capaz de gerar animações de alta fidelidade e ricas em emoções tanto para cenários de um único personagem quanto para múltiplos personagens. Nosso método introduz uma estratégia de aprendizado aumentado por expressão que utiliza representações implícitas para capturar dinâmicas faciais independentes de identidade, melhorando a capacidade do modelo de renderizar emoções em detalhes finos. Para o controle de múltiplos personagens, projetamos um mecanismo de atenção cruzada mascarada que garante a geração de expressões independentes, porém coordenadas, prevenindo efetivamente a interferência de características. Para avançar a pesquisa nessa área, propomos o conjunto de dados Multi-Expr e o ExprBench, que são conjuntos de dados e benchmarks especificamente projetados para treinar e avaliar animações de retratos de múltiplos personagens. Experimentos extensivos demonstram que o FantasyPortrait supera significativamente os métodos state-of-the-art tanto em métricas quantitativas quanto em avaliações qualitativas, destacando-se especialmente em contextos desafiadores de reencenação cruzada e múltiplos personagens. Nossa página do projeto está disponível em https://fantasy-amap.github.io/fantasy-portrait/.
Apresentamos o AbGen, o primeiro benchmark projetado para avaliar as capacidades de LLMs (Large Language Models) na elaboração de estudos de ablação para pesquisas científicas. O AbGen consiste em 1.500 exemplos anotados por especialistas, derivados de 807 artigos de PLN (Processamento de Linguagem Natural). Neste benchmark, os LLMs têm a tarefa de gerar projetos detalhados de estudos de ablação para um módulo ou processo específico, com base no contexto de pesquisa fornecido. Nossa avaliação de LLMs líderes, como o DeepSeek-R1-0528 e o o4-mini, revela uma lacuna significativa de desempenho entre esses modelos e especialistas humanos em termos de importância, fidelidade e robustez dos projetos de estudos de ablação. Além disso, demonstramos que os métodos atuais de avaliação automatizada não são confiáveis para nossa tarefa, pois apresentam uma discrepância significativa quando comparados à avaliação humana. Para investigar melhor isso, desenvolvemos o AbGen-Eval, um benchmark de meta-avaliação projetado para avaliar a confiabilidade dos sistemas de avaliação automatizada comumente usados na medição do desempenho de LLMs em nossa tarefa. Investigamos vários sistemas LLM-as-Judge no AbGen-Eval, fornecendo insights para pesquisas futuras sobre o desenvolvimento de sistemas de avaliação baseados em LLM mais eficazes e confiáveis para tarefas científicas complexas.
Autoencoders Esparsos têm surgido como ferramentas poderosas para interpretar as representações internas de Modelos de Linguagem de Grande Escala, mas frequentemente falham em capturar características específicas de domínio que não são prevalentes em seus corpora de treinamento. Este artigo introduz uma abordagem de aprendizado residual que aborda essa cegueira a características sem exigir um retreinamento completo. Propomos treinar um SAE secundário especificamente para modelar o erro de reconstrução de um SAE pré-treinado em textos específicos de domínio, capturando efetivamente as características perdidas pelo modelo primário. Ao somar as saídas de ambos os modelos durante a inferência, demonstramos melhorias significativas tanto na entropia cruzada do LLM quanto nas métricas de variância explicada em vários domínios especializados. Nossos experimentos mostram que esse método incorpora eficientemente novos conhecimentos de domínio em SAEs existentes, mantendo seu desempenho em tarefas gerais. Essa abordagem permite que os pesquisadores aprimorem seletivamente a interpretabilidade dos SAEs para domínios específicos de interesse, abrindo novas possibilidades para a interpretabilidade mecanicista direcionada de LLMs.
Modelos de linguagem (LMs) são desafiadores de adaptar a novas distribuições de dados por meio de simples ajustes finos. Isso se deve à rigidez de seus tokenizadores de subpalavras, que normalmente permanecem inalterados durante a adaptação. Essa inflexibilidade frequentemente leva a uma tokenização ineficiente, causando a superfragmentação de domínios fora da distribuição, idiomas não vistos ou scripts. Neste trabalho, desenvolvemos LMs em nível de byte com tokenizadores aprendíveis para tornar a tokenização adaptativa. Nossos modelos incluem um submódulo que aprende a prever os limites entre a sequência de bytes de entrada, codificando-a em segmentos de comprimento variável. Métodos existentes sem tokenizador treinam esse preditor de limites usando uma perda auxiliar que impõe uma taxa de compressão fixa em todo o corpus de treinamento, introduzindo um novo tipo de rigidez. Propomos FLEXITOKENS, um objetivo de treinamento simplificado que permite uma flexibilidade significativamente maior durante a adaptação. Avaliando em vários benchmarks multilingues, tarefas morfologicamente diversas e domínios, demonstramos que o FLEXITOKENS reduz consistentemente a superfragmentação de tokens e alcança melhorias de até 10% no desempenho de tarefas subsequentes em comparação com tokenizadores de subpalavras e outros baseados em gradiente. O código e os dados para nossos experimentos serão disponibilizados em https://github.com/owos/flexitokens.
Apresentamos os Einstein Fields, uma representação neural projetada para comprimir simulações computacionalmente intensivas de relatividade numérica quadridimensional em pesos compactos de redes neurais implícitas. Ao modelar a métrica, que é o campo tensorial central da relatividade geral, os Einstein Fields permitem a derivação de quantidades físicas por meio de diferenciação automática. No entanto, ao contrário dos campos neurais convencionais (por exemplo, campos de distância assinada, ocupação ou radiação), os Einstein Fields são Campos Tensoriais Neurais com a diferença crucial de que, ao codificar a geometria do espaço-tempo da relatividade geral em representações de campos neurais, as dinâmicas emergem naturalmente como um subproduto. Os Einstein Fields demonstram um potencial notável, incluindo modelagem contínua do espaço-tempo 4D, independência de malha, eficiência de armazenamento, precisão de derivadas e facilidade de uso. Abordamos esses desafios em vários cenários de teste canônicos da relatividade geral e lançamos uma biblioteca de código aberto baseada em JAX, abrindo caminho para abordagens mais escaláveis e expressivas na relatividade numérica. O código está disponível em https://github.com/AndreiB137/EinFields.
A Interpolação de Quadros de Vídeo (VFI) tem como objetivo prever o quadro intermediário I_n (usamos n para denotar o tempo em vídeos para evitar sobrecarga de notação com o passo de tempo t em modelos de difusão) com base em dois quadros consecutivos vizinhos I_0 e I_1. Abordagens recentes aplicam modelos de difusão (tanto baseados em imagem quanto em vídeo) nessa tarefa e alcançam um desempenho robusto. No entanto, modelos de difusão baseados em imagem são incapazes de extrair informações temporais e são relativamente ineficientes em comparação com métodos que não utilizam difusão. Modelos de difusão baseados em vídeo podem extrair informações temporais, mas são excessivamente grandes em termos de escala de treinamento, tamanho do modelo e tempo de inferência. Para mitigar esses problemas, propomos o Temporal-Aware Latent Brownian Bridge Diffusion for Video Frame Interpolation (TLB-VFI), um modelo de difusão baseado em vídeo eficiente. Ao extrair informações temporais ricas das entradas de vídeo por meio de nossa proposta de portão de wavelet 3D e autoencoder temporal-aware, nosso método alcança uma melhoria de 20% no FID nos conjuntos de dados mais desafiadores em relação aos recentes modelos de difusão baseados em imagem de última geração. Além disso, devido à existência de informações temporais ricas, nosso método alcança um desempenho robusto enquanto possui 3 vezes menos parâmetros. Essa redução de parâmetros resulta em uma aceleração de 2,3 vezes. Ao incorporar orientação de fluxo óptico, nosso método requer 9000 vezes menos dados de treinamento e alcança mais de 20 vezes menos parâmetros do que modelos de difusão baseados em vídeo. Códigos e resultados estão disponíveis em nossa página do projeto: https://zonglinl.github.io/tlbvfi_page.
Os recentes avanços em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) desbloquearam poderosas habilidades de raciocínio cruzado entre modalidades, mas também levantaram novas preocupações de segurança, especialmente quando confrontados com entradas multimodais adversariais. Para melhorar a segurança dos MLLMs durante a inferência, introduzimos uma tecnologia modular e adaptativa de intervenção em tempo de inferência, o AutoSteer, sem a necessidade de ajuste fino do modelo subjacente. O AutoSteer incorpora três componentes principais: (1) um novo Score de Consciência de Segurança (SAS) que identifica automaticamente as distinções mais relevantes para a segurança entre as camadas internas do modelo; (2) um sonda de segurança adaptativa treinada para estimar a probabilidade de saídas tóxicas a partir de representações intermediárias; e (3) um Cabeçalho de Recusa leve que intervém seletivamente para modular a geração quando riscos de segurança são detectados. Experimentos realizados com LLaVA-OV e Chameleon em diversos benchmarks críticos para segurança demonstram que o AutoSteer reduz significativamente a Taxa de Sucesso de Ataque (ASR) para ameaças textuais, visuais e cruzadas entre modalidades, mantendo as habilidades gerais. Esses resultados posicionam o AutoSteer como uma estrutura prática, interpretável e eficaz para a implantação mais segura de sistemas de IA multimodal.