Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes em diversas tarefas, mas ainda enfrentam dificuldades com raciocínio matemático complexo. As pesquisas existentes concentram-se principalmente na construção de conjuntos de dados e na otimização de métodos, muitas vezes negligenciando dois aspectos críticos: o design abrangente baseado em conhecimento e a modelagem do espaço de dados centrada no modelo. Neste artigo, apresentamos o We-Math 2.0, um sistema unificado que integra um sistema estruturado de conhecimento matemático, modelagem do espaço de dados centrada no modelo e um paradigma de treinamento baseado em aprendizado por reforço (RL) para aprimorar de forma abrangente as habilidades de raciocínio matemático dos MLLMs. As principais contribuições do We-Math 2.0 são quatro: (1) Sistema de Conhecimento MathBook: Construímos um sistema hierárquico de cinco níveis que abrange 491 pontos de conhecimento e 1.819 princípios fundamentais. (2) MathBook-Standard & Pro: Desenvolvemos o MathBook-Standard, um conjunto de dados que garante ampla cobertura conceitual e flexibilidade por meio de expansão dupla. Além disso, definimos um espaço de dificuldade tridimensional e geramos 7 variantes progressivas por problema para construir o MathBook-Pro, um conjunto de dados desafiador para treinamento robusto. (3) MathBook-RL: Propomos um framework de RL em duas etapas composto por: (i) Fine-tuning de Inicialização a Frio, que alinha o modelo com o raciocínio em cadeia de pensamento orientado ao conhecimento; e (ii) RL de Alinhamento Progressivo, aproveitando o aprendizado de recompensa média e o agendamento dinâmico de dados para alcançar alinhamento progressivo em níveis de dificuldade. (4) MathBookEval: Introduzimos um benchmark abrangente que cobre todos os 491 pontos de conhecimento com distribuições diversas de etapas de raciocínio. Os resultados experimentais mostram que o MathBook-RL tem desempenho competitivo com as linhas de base existentes em quatro benchmarks amplamente utilizados e alcança resultados fortes no MathBookEval, sugerindo uma generalização promissora no raciocínio matemático.
Os modelos autoregressivos (AR) predominantes para geração de texto para imagem dependem de modelos de difusão computacionalmente intensivos para processar tokens de imagem contínuos ou empregam quantização vetorial (VQ) para obter tokens discretos com perda de quantização. Neste artigo, avançamos o paradigma autoregressivo com o NextStep-1, um modelo autoregressivo de 14B combinado com um cabeçalho de correspondência de fluxo de 157M, treinado em tokens de texto discretos e tokens de imagem contínuos com objetivos de previsão do próximo token. O NextStep-1 alcança desempenho de ponta para modelos autoregressivos em tarefas de geração de texto para imagem, demonstrando capacidades robustas na síntese de imagens de alta fidelidade. Além disso, nosso método apresenta forte desempenho em edição de imagens, destacando o poder e a versatilidade de nossa abordagem unificada. Para promover a pesquisa aberta, disponibilizaremos nosso código e modelos para a comunidade.
Apresentamos o PRELUDE, um benchmark para avaliar a compreensão de contexto longo por meio da tarefa de determinar se a história de prequel de um personagem é consistente com a narrativa canônica do livro original. Nossa tarefa exige uma demanda mais forte de compreensão global e raciocínio profundo em comparação com benchmarks existentes — como os prequels não fazem parte da história original, avaliar sua plausibilidade geralmente requer buscar e integrar informações que estão apenas indiretamente relacionadas. Empiricamente, 88% dos casos exigem evidências de múltiplas partes da narrativa. Os resultados experimentais destacam o desafio de nossa tarefa: aprendizado em contexto, RAG e treinamento em domínio com LLMs de última geração, além de serviços comerciais de DeepResearch, ficam atrás dos humanos em mais de 15%. Um estudo adicional com humanos revela que os modelos frequentemente produzem respostas corretas com raciocínios falhos, resultando em uma diferença de mais de 30% na precisão do raciocínio em comparação com humanos. Essas descobertas ressaltam a necessidade substancial de melhoria na compreensão e raciocínio de contexto longo.
A produção tradicional de desenhos animados e animes envolve estágios de keyframing, inbetweening e colorização, que demandam um esforço manual intensivo. Apesar dos avanços recentes em IA, os métodos existentes frequentemente lidam com esses estágios de forma separada, resultando em acúmulo de erros e artefatos. Por exemplo, abordagens de inbetweening enfrentam dificuldades com movimentos amplos, enquanto métodos de colorização exigem esboços densos por quadro. Para resolver isso, apresentamos o ToonComposer, um modelo generativo que unifica inbetweening e colorização em um único estágio pós-keyframing. O ToonComposer emprega um mecanismo de injeção de esboços esparsos para fornecer controle preciso utilizando esboços de keyframes. Além disso, utiliza um método de adaptação para desenhos animados com o adaptador espacial de baixa classificação (spatial low-rank adapter) para ajustar um modelo de fundação de vídeo moderno ao domínio de desenhos animados, mantendo sua prioridade temporal intacta. Exigindo apenas um único esboço e um quadro de referência colorido, o ToonComposer se destaca com entradas esparsas, ao mesmo tempo que suporta múltiplos esboços em qualquer localização temporal para um controle de movimento mais preciso. Essa capacidade dupla reduz a carga de trabalho manual e aumenta a flexibilidade, capacitando artistas em cenários reais. Para avaliar nosso modelo, criamos ainda o PKBench, um benchmark com esboços desenhados à mão que simulam casos de uso reais. Nossa avaliação demonstra que o ToonComposer supera os métodos existentes em qualidade visual, consistência de movimento e eficiência de produção, oferecendo uma solução superior e mais flexível para a produção de desenhos animados assistida por IA.
Apresentamos o UI-Venus, um agente de interface de usuário nativo que utiliza apenas capturas de tela como entrada, baseado em um modelo de linguagem multimodal de grande escala. O UI-Venus alcança desempenho de estado da arte (SOTA) tanto em tarefas de ancoragem de UI quanto de navegação, utilizando apenas algumas centenas de milhares de amostras de treinamento de alta qualidade por meio de ajuste fino por reforço (RFT) baseado no Qwen2.5-VL. Especificamente, as variantes de 7B e 72B do UI-Venus obtêm 94,1% / 50,8% e 95,3% / 61,9% nos benchmarks padrão de ancoragem, ou seja, Screenspot-V2 / Pro, superando as linhas de base SOTA anteriores, incluindo o GTA1 de código aberto e o UI-TARS-1.5 de código fechado. Para demonstrar a capacidade de resumo e planejamento do UI-Venus, também o avaliamos no AndroidWorld, uma arena de navegação de UI online, onde nossas variantes de 7B e 72B alcançam taxas de sucesso de 49,1% e 65,9%, superando os modelos existentes. Para alcançar esses resultados, introduzimos funções de recompensa cuidadosamente projetadas para tarefas de ancoragem e navegação de UI, além de estratégias eficientes de limpeza de dados correspondentes. Para aprimorar ainda mais o desempenho de navegação, propomos o Alinhamento de Histórico de Trajetória Auto-Evolutivo e o Aprimoramento de Ações Esparsas, que refinam traços de raciocínio históricos e equilibram a distribuição de ações esparsas, porém críticas, levando a um planejamento mais coerente e melhor generalização em tarefas complexas de UI. Nossas contribuições incluem a publicação de agentes de UI de código aberto SOTA, protocolos abrangentes de limpeza de dados e uma estrutura auto-evolutiva inovadora para melhorar o desempenho de navegação, incentivando pesquisas e desenvolvimentos futuros na comunidade. O código está disponível em https://github.com/antgroup/UI-Venus.
Os Modelos de Linguagem de Difusão (DLMs, na sigla em inglês) estão emergindo rapidamente como uma alternativa poderosa e promissora ao paradigma autoregessivo (AR) dominante. Ao gerar tokens em paralelo por meio de um processo iterativo de remoção de ruído, os DLMs possuem vantagens inerentes na redução da latência de inferência e na captura de contexto bidirecional, permitindo assim um controle refinado sobre o processo de geração. Embora tenham alcançado uma aceleração de várias vezes, avanços recentes permitiram que os DLMs apresentassem desempenho comparável aos seus equivalentes autoregessivos, tornando-os uma escolha atraente para diversas tarefas de processamento de linguagem natural. Nesta pesquisa, fornecemos uma visão holística do cenário atual dos DLMs. Traçamos sua evolução e relação com outros paradigmas, como modelos autoregessivos e de linguagem mascarada, e cobrimos tanto os princípios fundamentais quanto os modelos de última geração. Nosso trabalho oferece uma taxonomia atualizada e abrangente, além de uma análise detalhada das técnicas atuais, desde estratégias de pré-treinamento até métodos avançados de pós-treinamento. Outra contribuição desta pesquisa é uma revisão minuciosa das estratégias e otimizações de inferência dos DLMs, incluindo melhorias no paralelismo de decodificação, mecanismos de cache e qualidade da geração. Também destacamos as abordagens mais recentes para extensões multimodais dos DLMs e delineamos suas aplicações em diversos cenários práticos. Além disso, nossa discussão aborda as limitações e desafios dos DLMs, incluindo eficiência, manipulação de sequências longas e requisitos de infraestrutura, ao mesmo tempo em que delineia direções futuras de pesquisa para sustentar o progresso neste campo em rápida evolução. O projeto GitHub está disponível em https://github.com/VILA-Lab/Awesome-DLMs.
Aplicações interativas modernas demandam cada vez mais conteúdo 3D dinâmico, mas a transformação de modelos 3D estáticos em ativos animados constitui um gargalo significativo nos pipelines de criação de conteúdo. Embora avanços recentes em IA generativa tenham revolucionado a criação de modelos 3D estáticos, a rigging e a animação continuam a depender fortemente da intervenção de especialistas. Apresentamos o Puppeteer, um framework abrangente que aborda tanto a rigging automática quanto a animação para diversos objetos 3D. Nosso sistema primeiro prevê estruturas esqueléticas plausíveis por meio de um transformer auto-regressivo que introduz uma estratégia de tokenização baseada em juntas para representação compacta e uma metodologia de ordenação hierárquica com perturbação estocástica que aprimora as capacidades de aprendizado bidirecional. Em seguida, o sistema infere pesos de skinning por meio de uma arquitetura baseada em atenção que incorpora atenção conjunta consciente da topologia, codificando explicitamente as relações inter-juntas com base em distâncias do grafo esquelético. Por fim, complementamos esses avanços em rigging com um pipeline de animação baseado em otimização diferenciável que gera animações estáveis e de alta fidelidade, sendo computacionalmente mais eficiente do que as abordagens existentes. Avaliações extensas em múltiplos benchmarks demonstram que nosso método supera significativamente as técnicas state-of-the-art tanto em precisão de previsão esquelética quanto em qualidade de skinning. O sistema processa de forma robusta diversos conteúdos 3D, desde ativos de jogos projetados profissionalmente até formas geradas por IA, produzindo animações temporalmente coerentes que eliminam os problemas de tremulação comuns nos métodos existentes.
Apresentamos o STream3R, uma abordagem inovadora para reconstrução 3D que reformula a predição de mapas de pontos como um problema de Transformer apenas com decodificador. Os métodos atuais de última geração para reconstrução multi-visão dependem de otimização global custosa ou se apoiam em mecanismos de memória simplistas que escalam mal com o comprimento da sequência. Em contraste, o STream3R introduz um framework de streaming que processa sequências de imagens de forma eficiente usando atenção causal, inspirado pelos avanços na modelagem moderna de linguagem. Ao aprender priores geométricos de grandes conjuntos de dados 3D, o STream3R generaliza bem para cenários diversos e desafiadores, incluindo cenas dinâmicas onde métodos tradicionais frequentemente falham. Experimentos extensivos mostram que nosso método supera consistentemente trabalhos anteriores em benchmarks tanto de cenas estáticas quanto dinâmicas. Além disso, o STream3R é intrinsecamente compatível com infraestruturas de treinamento no estilo LLM, permitindo pré-treinamento e ajuste fino em grande escala para várias tarefas 3D subsequentes. Nossos resultados destacam o potencial dos modelos Transformer causais para percepção 3D online, abrindo caminho para o entendimento 3D em tempo real em ambientes de streaming. Mais detalhes podem ser encontrados em nossa página do projeto: https://nirvanalan.github.io/projects/stream3r.
O aprendizado por reforço com recompensas verificáveis (RLVR), que normalmente adota o Pass@1 como recompensa, enfrentou problemas ao equilibrar exploração e explotação, fazendo com que as políticas preferissem ações conservadoras e convergissem para um ótimo local. Portanto, identificar uma métrica de recompensa apropriada é crucial. Em relação ao trabalho anterior, embora o Pass@k tenha sido usado na avaliação, sua conexão com a capacidade de exploração de LLMs no RLVR permaneceu amplamente negligenciada. Para investigar isso, primeiro usamos o Pass@k como recompensa para treinar o modelo de política (ou seja, Treinamento Pass@k) e observamos a melhoria em sua capacidade de exploração. Em seguida, derivamos uma solução analítica para a vantagem do Treinamento Pass@k, resultando em um processo eficiente e eficaz. Com base nisso, nossa análise revela que exploração e explotação não são objetivos inerentemente conflitantes, podendo, na verdade, se reforçar mutuamente. Além disso, o Treinamento Pass@k com derivação analítica envolve essencialmente o design direto da função de vantagem. Inspirados por isso, exploramos preliminarmente o design de vantagem para RLVR, mostrando resultados promissores e destacando uma potencial direção futura.
Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstrem um potencial imenso para alcançar interações verdadeiramente humanas, o progresso é dificultado pela falta de estruturas de avaliação detalhadas para cenários centrados no ser humano, abrangendo tanto a compreensão de intenções humanas complexas quanto a oferta de respostas empáticas e contextualmente conscientes. Aqui, apresentamos o HumanSense, um benchmark abrangente projetado para avaliar as capacidades de percepção e interação centradas no ser humano dos MLLMs, com um foco particular na compreensão profunda de contextos multimodais estendidos e na formulação de feedback racional. Nossa avaliação revela que os principais MLLMs ainda têm um espaço considerável para melhoria, especialmente em tarefas avançadas orientadas para interação. A suplementação da entrada visual com informações de áudio e texto resulta em melhorias substanciais, e os modelos Omni-modais mostram vantagens nessas tarefas. Além disso, argumentamos que o feedback apropriado surge de uma análise contextual das necessidades e emoções do interlocutor, com a capacidade de raciocínio servindo como a chave para desbloqueá-lo. Consequentemente, empregamos um aprendizado por reforço progressivo em múltiplos estágios e modalidades para aprimorar as habilidades de raciocínio de um modelo Omni, alcançando ganhos substanciais nos resultados da avaliação. Adicionalmente, observamos que processos de raciocínio bem-sucedidos exibem padrões de pensamento altamente consistentes. Ao projetar prompts correspondentes, também melhoramos o desempenho de modelos sem raciocínio de maneira livre de treinamento. Página do projeto: brightpinkhttps://digital-avatar.github.io/ai/HumanSense/
Trabalhos anteriores analisaram a robustez de codificadores visuais a transformações e corrupções de imagens, particularmente em casos onde tais alterações não são vistas durante o treinamento. Quando isso ocorre, elas introduzem uma forma de deslocamento de distribuição no momento do teste, frequentemente levando à degradação do desempenho. O foco principal tem sido em corrupções severas que, quando aplicadas de forma agressiva, distorcem sinais úteis necessários para previsões semânticas precisas. Adotamos uma perspectiva diferente ao analisar parâmetros do processo de aquisição de imagens e transformações que podem ser sutis ou até mesmo imperceptíveis ao olho humano. Descobrimos que tais parâmetros são sistematicamente codificados nas representações visuais aprendidas e podem ser facilmente recuperados. Mais surpreendentemente, sua presença pode ter um impacto profundo, seja positivo ou negativo, nas previsões semânticas. Esse efeito depende de haver uma forte correlação ou anticorrelação entre rótulos semânticos e esses rótulos baseados em aquisição ou processamento. Nosso código e dados estão disponíveis em: https://github.com/ryan-caesar-ramos/visual-encoder-traces
Os recentes avanços no aprendizado de máquina têm despertado um interesse crescente na avaliação automatizada da qualidade de interpretação. No entanto, as pesquisas existentes sofrem com uma análise insuficiente da qualidade do uso da linguagem, eficácia insatisfatória de modelagem devido à escassez e desequilíbrio de dados, e uma falta de esforços para explicar as previsões dos modelos. Para abordar essas lacunas, propomos uma estrutura de modelagem multidimensional que integra engenharia de características, aumento de dados e aprendizado de máquina explicável. Essa abordagem prioriza a explicabilidade em vez de previsões de "caixa preta", utilizando apenas características transparentes e relevantes para o constructo e conduzindo análises de Valor Shapley (SHAP). Nossos resultados demonstram um forte desempenho preditivo em um novo conjunto de dados de interpretação consecutiva inglês-chinês, identificando que as pontuações BLEURT e CometKiwi são as características preditivas mais fortes para fidelidade, características relacionadas a pausas para fluência, e métricas de diversidade fraseológica específicas para o chinês para o uso da linguagem. No geral, ao enfatizar particularmente a explicabilidade, apresentamos uma alternativa escalável, confiável e transparente à avaliação humana tradicional, facilitando o fornecimento de feedback diagnóstico detalhado para aprendizes e apoiando vantagens de aprendizagem autorregulada não proporcionadas por pontuações automatizadas isoladamente.
No estudo do Processamento de Linguagem Natural (PLN) confiável, diversos campos de pesquisa importantes emergiram, incluindo os de explicabilidade e privacidade. Embora o interesse em PLN explicável e que preserve a privacidade tenha aumentado consideravelmente nos últimos anos, ainda há uma falta de investigação na interseção entre os dois. Isso deixa uma lacuna significativa na compreensão de se é possível alcançar tanto a explicabilidade quanto a privacidade, ou se os dois estão em conflito. Neste trabalho, realizamos uma investigação empírica sobre a relação de troca entre privacidade e explicabilidade no contexto do PLN, guiados pelos métodos abrangentes populares de Privacidade Diferencial (DP) e Explicabilidade Pós-hoc. Nossas descobertas incluem uma visão sobre a complexa relação entre privacidade e explicabilidade, que é influenciada por diversos fatores, incluindo a natureza da tarefa subsequente e a escolha do método de privatização de texto e de explicabilidade. Com isso, destacamos o potencial para que privacidade e explicabilidade coexistam e resumimos nossas descobertas em uma coleção de recomendações práticas para trabalhos futuros nessa importante interseção.