Artigos de pesquisa em IA selecionados diariamente com traduções
As capacidades de raciocínio dos grandes modelos de linguagem (LLMs) têm sido um foco de pesquisa de longa data. Trabalhos recentes aprimoraram ainda mais essas capacidades utilizando aprendizado por reforço (RL), com muitos novos métodos alegando melhorias significativas com supervisão externa mínima ou inexistente. Surpreendentemente, alguns estudos sugerem até que sinais de recompensa aleatórios ou incorretos podem melhorar o desempenho de raciocínio. No entanto, esses avanços são principalmente relatados na família de modelos Qwen2.5 e avaliados em benchmarks conhecidos, como MATH-500, AMC e AIME, enquanto falham em alcançar ganhos semelhantes em outros modelos, como Llama, o que justifica uma investigação mais aprofundada. Nossa análise mostra que, embora o Qwen2.5 alcance um forte desempenho em raciocínio matemático, seu pré-treinamento em grandes corpora da web o torna vulnerável à contaminação de dados em benchmarks populares. Como resultado, os resultados derivados desses benchmarks podem ser pouco confiáveis. Para resolver isso, introduzimos um gerador que produz problemas aritméticos totalmente sintéticos de comprimento e dificuldade arbitrários, gerando um conjunto de dados limpo que chamamos de RandomCalculation. Usando esses conjuntos de dados livres de vazamentos, mostramos que apenas sinais de recompensa precisos melhoram consistentemente o desempenho, enquanto sinais ruidosos ou incorretos não o fazem. Defendemos a avaliação de métodos RL em benchmarks não contaminados e em diversas famílias de modelos para garantir conclusões confiáveis.
A escalabilidade de modelos de linguagem desbloqueia capacidades impressionantes, mas as demandas computacionais e de memória associadas tornam tanto o treinamento quanto a implantação caros. Os esforços existentes de eficiência geralmente visam o compartilhamento de parâmetros ou a computação adaptativa, deixando em aberto a questão de como alcançar ambos simultaneamente. Apresentamos o Mixture-of-Recursions (MoR), uma estrutura unificada que combina os dois eixos de eficiência dentro de um único Transformer Recursivo. O MoR reutiliza uma pilha compartilhada de camadas em etapas de recursão para alcançar eficiência de parâmetros, enquanto roteadores leves permitem pensamento adaptativo em nível de token ao atribuir dinamicamente diferentes profundidades de recursão a tokens individuais. Isso permite que o MoR concentre a computação quadrática de atenção apenas entre os tokens ainda ativos em uma determinada profundidade de recursão, melhorando ainda mais a eficiência de acesso à memória ao armazenar em cache seletivamente apenas seus pares chave-valor. Além desses mecanismos principais, também propomos uma variante de compartilhamento de KV que reutiliza pares KV da primeira recursão, projetada especificamente para diminuir a latência de preenchimento e a pegada de memória. Em escalas de modelos que variam de 135M a 1,7B de parâmetros, o MoR forma uma nova fronteira de Pareto: com FLOPs de treinamento iguais e tamanhos de modelo menores, ele reduz significativamente a perplexidade de validação e melhora a precisão em poucos exemplos, enquanto oferece maior taxa de transferência em comparação com baselines recursivos existentes e vanilla. Esses ganhos demonstram que o MoR é um caminho eficaz para a qualidade de modelos grandes sem incorrer no custo de modelos grandes.
O rápido desenvolvimento de modelos em grande escala catalisou avanços significativos no domínio dos humanos digitais. Essas metodologias avançadas oferecem soluções de alta fidelidade para a condução e renderização de avatares, levando a academia a focar no próximo grande desafio: o humano virtual interativo audiovisual diádico. Para facilitar a pesquisa nessa área emergente, apresentamos o conjunto de dados SpeakerVid-5M, o primeiro conjunto de dados em larga escala e de alta qualidade projetado para a geração de humanos virtuais interativos audiovisuais diádicos. Totalizando mais de 8.743 horas, o SpeakerVid-5M contém mais de 5,2 milhões de clipes de vídeo de retratos humanos. Ele abrange diversas escalas e tipos de interação, incluindo fala monádica, escuta e conversas diádicas. Crucialmente, o conjunto de dados é estruturado em duas dimensões principais: tipo de interação e qualidade dos dados. Primeiro, ele é categorizado em quatro tipos (ramo de diálogo, ramo único, ramo de escuta e ramo de múltiplas interações) com base no cenário de interação. Segundo, ele é estratificado em um subconjunto de pré-treinamento em larga escala e um subconjunto curado e de alta qualidade para Ajuste Fino Supervisionado (SFT). Essa estrutura dupla acomoda uma ampla gama de tarefas de humanos virtuais 2D. Além disso, fornecemos uma linha de base de chat de vídeo baseada em autoregressão (AR) treinada nesses dados, acompanhada por um conjunto dedicado de métricas e dados de teste para servir como um benchmark VidChatBench para trabalhos futuros. Tanto o conjunto de dados quanto o código de processamento de dados correspondente serão liberados publicamente. Página do projeto: https://dorniwang.github.io/SpeakerVid-5M/
Modelos avançados recentes de visão e linguagem (VLMs) demonstraram um forte desempenho em tarefas passivas e offline de compreensão de imagens e vídeos. No entanto, sua eficácia em cenários incorporados, que exigem interação online e compreensão ativa da cena, permanece limitada. Nesses cenários, um agente percebe o ambiente a partir de uma perspectiva em primeira pessoa, com cada ação moldando dinamicamente as observações subsequentes. Mesmo modelos de última geração, como GPT-4o, Claude 3.5 Sonnet e Gemini 2.5 Pro, lutam em interações em ambientes abertos, exibindo limitações claras no raciocínio espacial e no planejamento de longo prazo. Para abordar essa lacuna, introduzimos o EmRACE-3K, um conjunto de dados com mais de 3.000 tarefas guiadas por linguagem, situadas em diversos ambientes fotorrealísticos construídos usando Unreal Engine e o framework UnrealCV-Zoo. As tarefas abrangem uma ampla gama de desafios incorporados, incluindo navegação, manipulação de objetos e execução de objetivos em múltiplas etapas. Cada tarefa se desdobra como uma trajetória de múltiplos passos, emparelhando observações visuais em primeira pessoa com instruções de alto nível, ações fundamentadas e racionalizações em linguagem natural que expressam a intenção do agente a cada passo. Usando o EmRACE-3K, estabelecemos um benchmark para avaliar as capacidades de raciocínio incorporado dos VLMs em três dimensões principais: Exploração, Raciocínio Dinâmico Espaço-Semântico e Execução de Objetivos em Múltiplas Etapas. Em configurações zero-shot, todos os modelos alcançam taxas de sucesso abaixo de 20%, destacando o desafio apresentado pelo nosso benchmark e as limitações atuais dos VLMs em ambientes interativos. Para demonstrar a utilidade do EmRACE-3K, ajustamos ainda mais o Qwen2.5-VL-7B usando aprendizado supervisionado seguido de aprendizado por reforço. Essa abordagem resulta em melhorias substanciais em todas as três categorias de desafios, destacando a eficácia do conjunto de dados no desenvolvimento de capacidades de raciocínio incorporado.
Modelos Recentes de Raciocínio em Grande Escala (LRMs, na sigla em inglês) têm alcançado progressos notáveis em benchmarks específicos para tarefas, mas seus métodos de avaliação permanecem limitados por paradigmas isolados de resolução de problemas. Os benchmarks existentes avaliam predominantemente o raciocínio de questões únicas por meio de testes sequenciais, resultando em limitações críticas: (1) vulnerabilidade à contaminação de dados e desafios menos exigentes (por exemplo, o DeepSeek-R1 alcança 97,0% no MATH500), forçando a criação custosa e contínua de novas questões com grande esforço humano, (2) falha em avaliar modelos sob pressão de múltiplos contextos, um requisito essencial para implantação no mundo real. Para preencher essa lacuna, apresentamos o REST (Avaliação de Raciocínio por Testes Simultâneos), uma estrutura de teste de estresse que expõe os LRMs a múltiplos problemas simultaneamente. Além do raciocínio básico, o REST avalia especificamente várias capacidades pouco testadas: alocação de prioridade contextual, resistência à interferência entre problemas e gerenciamento dinâmico de carga cognitiva. Nossa avaliação revela várias descobertas impactantes: até modelos de última geração (SOTA), como o DeepSeek-R1, exibem degradação substancial de desempenho sob testes de estresse. Crucialmente, o REST demonstra maior poder discriminativo do que os benchmarks existentes, revelando diferenças pronunciadas de desempenho entre modelos que exibem desempenho semelhante e próximo ao máximo em avaliações de questões únicas. Algumas percepções mecanísticas importantes emergem de nossa análise: (1) a "armadilha do excesso de pensamento" é um fator crítico que contribui para a degradação do desempenho; (2) os modelos treinados com a técnica "long2short" preservam mais precisão em seu desempenho de problema único sob o REST, superando os modelos treinados de forma padrão. Esses resultados estabelecem o REST como um paradigma de avaliação eficiente em custos e preparado para o futuro, que reflete melhor as demandas de raciocínio do mundo real enquanto reduz a dependência de anotações humanas contínuas.
Apresentamos o MoVieS, um novo modelo feed-forward que sintetiza visões dinâmicas 4D a partir de vídeos monoculares em um segundo. O MoVieS representa cenas 3D dinâmicas utilizando grades alinhadas por pixel de primitivas Gaussianas, supervisionando explicitamente seu movimento variável no tempo. Isso permite, pela primeira vez, a modelagem unificada de aparência, geometria e movimento, e possibilita a síntese de visões, reconstrução e rastreamento de pontos 3D dentro de um único framework baseado em aprendizado. Ao conectar a síntese de novas visões com a reconstrução de geometria dinâmica, o MoVieS permite treinamento em larga escala em diversos conjuntos de dados com dependência mínima de supervisão específica para a tarefa. Como resultado, ele também suporta naturalmente uma ampla gama de aplicações zero-shot, como estimativa de fluxo de cena e segmentação de objetos em movimento. Experimentos extensivos validam a eficácia e eficiência do MoVieS em múltiplas tarefas, alcançando desempenho competitivo enquanto oferece acelerações de várias ordens de magnitude.
Modelos de linguagem de grande escala (LLMs) se destacam na compreensão e geração de linguagem natural, mas permanecem vulneráveis a erros factuais, limitando sua confiabilidade em tarefas que demandam conhecimento intensivo. Embora estratégias de decodificação em tempo de execução ofereçam uma solução eficiente promissora sem necessidade de treinamento, os métodos existentes geralmente tratam os sinais em nível de token e em nível de camada de forma isolada, negligenciando a dinâmica conjunta entre eles. Neste trabalho, introduzimos um método de decodificação contrastiva localizado por camada e consciente de tokens, que alinha tipos específicos de tokens com suas camadas de transformador mais influentes para melhorar a geração factual. Por meio de uma análise empírica de atenção, identificamos dois padrões-chave: tokens de pontuação recebem atenção dominante nas camadas iniciais, enquanto tokens conceituais governam o raciocínio semântico nas camadas intermediárias. Ao suprimir seletivamente a atenção a esses tipos de tokens em suas respectivas profundidades, conseguimos induzir uma degradação factual controlada e derivar sinais contrastivos para guiar a decodificação factual final. Nosso método não requer treinamento adicional ou modificação do modelo, e experimentos demonstram que ele melhora consistentemente a factualidade em vários LLMs e benchmarks diversos.
Recentemente, o papel do LLM-as-judge na avaliação de grandes modelos de linguagem ganhou destaque. No entanto, os modelos atuais de juiz sofrem com especialização estreita e robustez limitada, comprometendo sua capacidade de realizar avaliações abrangentes. Neste trabalho, apresentamos o CompassJudger-2, um novo modelo de juiz generalista que supera essas limitações por meio de uma estratégia de curadoria de dados multi-domínio orientada por tarefas. Central à nossa abordagem é a supervisão de tarefas de julgamento com recompensas verificáveis, orientando o raciocínio crítico intrínseco por meio de amostragem por rejeição para promover capacidades de julgamento robustas e generalizáveis. Introduzimos um objetivo de aprendizado refinado com perda de gradiente de política de margem para melhorar o desempenho. Empiricamente, o CompassJudger-2 alcança resultados superiores em múltiplos benchmarks de juiz e recompensa, e nosso modelo de 7B demonstra precisão de julgamento competitiva com modelos significativamente maiores, como o DeepSeek-V3 e o Qwen3-235B-A22B. Além disso, propomos o JudgerBenchV2, um benchmark abrangente que avalia a precisão de julgamento em múltiplos domínios e a consistência de classificação para padronizar a avaliação de modelos de juiz. Essas contribuições avançam o julgamento robusto e escalável de LLMs e estabelecem novos padrões de desempenho e avaliação.
O desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) requer benchmarks robustos que abrangem não apenas domínios acadêmicos, mas também campos industriais para avaliar efetivamente sua aplicabilidade em cenários do mundo real. Neste artigo, apresentamos dois benchmarks de nível especializado em coreano. O KMMLU-Redux, reconstruído a partir do KMMLU existente, consiste em questões dos exames de Qualificação Técnica Nacional da Coreia, com erros críticos removidos para aumentar a confiabilidade. O KMMLU-Pro é baseado nos exames de Licenciamento Profissional Nacional da Coreia para refletir o conhecimento profissional no país. Nossos experimentos demonstram que esses benchmarks representam de forma abrangente o conhecimento industrial na Coreia. Disponibilizamos nosso conjunto de dados publicamente.
A geração consistente de sujeitos (SCG, do inglês Subject-consistent Generation), que visa manter uma identidade consistente do sujeito em diversas cenas, continua sendo um desafio para modelos de texto para imagem (T2I, do inglês Text-to-Image). Os métodos existentes de SCG que não requerem treinamento frequentemente alcançam consistência ao custo da diversidade de layout e pose, prejudicando a narrativa visual expressiva. Para abordar essa limitação, propomos um framework T2I consistente em sujeito e diverso em pose, denominado CoDi, que permite a geração consistente de sujeitos com diversas poses e layouts. Motivados pela natureza progressiva da difusão, onde estruturas grosseiras emergem cedo e detalhes finos são refinados posteriormente, o CoDi adota uma estratégia de dois estágios: Transporte de Identidade (IT, do inglês Identity Transport) e Refinamento de Identidade (IR, do inglês Identity Refinement). O IT opera nos primeiros passos de redução de ruído, utilizando transporte ótimo para transferir características de identidade para cada imagem alvo de maneira consciente da pose. Isso promove a consistência do sujeito enquanto preserva a diversidade de pose. O IR é aplicado nos passos posteriores de redução de ruído, selecionando as características de identidade mais salientes para refinar ainda mais os detalhes do sujeito. Resultados qualitativos e quantitativos extensivos em consistência de sujeito, diversidade de pose e fidelidade ao prompt demonstram que o CoDi alcança tanto uma melhor percepção visual quanto um desempenho mais forte em todas as métricas. O código é fornecido em https://github.com/NJU-PCALab/CoDi.
Apresentamos o DreamPoster, uma estrutura de geração de Texto para Imagem que sintetiza inteligentemente pôsteres de alta qualidade a partir de imagens e prompts de texto fornecidos pelo usuário, mantendo a fidelidade do conteúdo e suportando saídas de resolução e layout flexíveis. Especificamente, o DreamPoster é construído sobre nosso modelo T2I, o Seedream3.0, para processar uniformemente diferentes tipos de geração de pôsteres. Para a construção do conjunto de dados, propomos um pipeline sistemático de anotação de dados que anota precisamente o conteúdo textual e as informações de hierarquia tipográfica dentro das imagens dos pôsteres, enquanto emprega metodologias abrangentes para construir conjuntos de dados pareados que incluem materiais de origem (por exemplo, gráficos/textos brutos) e suas saídas de pôsteres finais correspondentes. Além disso, implementamos uma estratégia de treinamento progressivo que permite ao modelo adquirir hierarquicamente capacidades de geração multitarefa, mantendo uma geração de alta qualidade. As avaliações em nossos benchmarks de teste demonstram a superioridade do DreamPoster sobre os métodos existentes, alcançando uma alta taxa de usabilidade de 88,55\%, em comparação com o GPT-4o (47,56\%) e o SeedEdit3.0 (25,96\%). O DreamPoster estará disponível online no Jimeng e em outros aplicativos da Bytedance.
Aprimorar o raciocínio matemático de Modelos de Linguagem de Grande Escala (LLMs) é um desafio crucial para o avanço das capacidades da IA. Embora o Ajuste Fino Supervisionado (SFT) e o Aprendizado por Reforço (RL) sejam os paradigmas de treinamento dominantes, uma metodologia sistemática para combiná-los a fim de maximizar tanto a precisão quanto a eficiência permanece amplamente inexplorada. Este artigo introduz uma receita de treinamento prática e eficaz que integra estrategicamente o SFT estendido com o RL a partir de inferência online (GRPO). Postulamos que esses métodos desempenham papéis complementares, e não concorrentes: uma fase prolongada de SFT primeiro eleva a precisão do modelo ao seu limite, após o que uma fase de GRPO melhora drasticamente a eficiência de tokens enquanto preserva esse desempenho máximo. Nossos experimentos revelam que estender o SFT por até 10 épocas é crucial para avanços de desempenho, e que o papel principal do GRPO nesse framework é otimizar o comprimento da solução. A eficácia de nossa receita é rigorosamente validada por meio de desempenho de alto nível em benchmarks desafiadores, incluindo uma classificação elevada entre mais de 2.200 equipes na Olimpíada de Matemática de IA (AIMO), estritamente livre de vazamentos. Este trabalho fornece à comunidade um plano testado em batalha para desenvolver raciocinadores matemáticos de ponta que são excepcionalmente precisos e praticamente eficientes. Para garantir total reprodutibilidade e capacitar pesquisas futuras, disponibilizaremos nosso framework completo em código aberto, incluindo todo o código, checkpoints de modelo e configurações de treinamento em https://github.com/analokmaus/kaggle-aimo2-fast-math-r1.
Este artigo apresenta um novo método de esteganografia executável utilizando a camada de transparência alfa de arquivos de imagem ICO para incorporar e entregar payloads de JavaScript auto-descomprimidos dentro de navegadores web. Ao direcionar o bit menos significativo (LSB) dos valores da camada alfa não transparente das imagens, o método proposto consegue ocultar código JavaScript comprimido dentro de uma imagem de favicon sem afetar a fidelidade visual. O tráfego web global carrega 294 bilhões de favicons diariamente e consome 0,9 petabytes de largura de banda de rede. Uma implementação de prova de conceito demonstra que uma imagem ICO de 64x64 pode incorporar até 512 bytes descomprimidos, ou 0,8 kilobyte ao usar uma compressão leve de duas etapas. No carregamento da página, o navegador busca o favicon como parte do comportamento padrão, permitindo que um script de carregamento incorporado extraia e execute o payload inteiramente na memória usando APIs nativas de JavaScript e acesso a pixels de canvas. Isso cria um canal encoberto de dois estágios que não requer solicitações adicionais de rede ou do usuário. Testes em vários navegadores, tanto em ambientes desktop quanto móveis, confirmam a execução bem-sucedida e silenciosa do script incorporado. Avaliamos o modelo de ameaça, relacionando-o a ataques de phishing polimórficos que evitam a detecção baseada em favicons, e analisamos a evasão de políticas de segurança de conteúdo e scanners antivírus. Mapeamos nove objetivos de exemplo do MITRE ATT&CK Framework para uma única linha de JavaScript que pode ser executada arbitrariamente em arquivos ICO. As defesas existentes de esteganálise e sanitização são discutidas, destacando limitações na detecção ou neutralização de explorações da camada alfa. Os resultados demonstram uma superfície de ataque furtiva e reutilizável que desfaz as fronteiras tradicionais entre imagens estáticas e conteúdo executável. Como os navegadores modernos reportam erros silenciosos quando os desenvolvedores falham especificamente em carregar arquivos ICO, essa superfície de ataque oferece um exemplo interessante de comportamentos web necessários que, por sua vez, comprometem a segurança.
Como ativos digitais valiosos, as redes neurais profundas exigem proteção robusta de propriedade, posicionando a marca d'água em redes neurais (NNW) como uma solução promissora. Entre as diversas abordagens de NNW, os métodos baseados em pesos são preferidos por sua simplicidade e praticidade; no entanto, eles permanecem vulneráveis a ataques de falsificação e sobrescrita. Para enfrentar esses desafios, propomos o NeuralMark, um método robusto construído em torno de um filtro de marca d'água com hash. Especificamente, utilizamos uma função de hash para gerar uma marca d'água binária irreversível a partir de uma chave secreta, que é então usada como filtro para selecionar os parâmetros do modelo para incorporação. Esse projeto entrelaça habilmente os parâmetros de incorporação com a marca d'água com hash, fornecendo uma defesa robusta contra ataques de falsificação e sobrescrita. Um pooling médio também é incorporado para resistir a ataques de ajuste fino e poda. Além disso, ele pode ser integrado de forma contínua em várias arquiteturas de redes neurais, garantindo ampla aplicabilidade. Teoricamente, analisamos seu limite de segurança. Empiricamente, verificamos sua eficácia e robustez em 13 arquiteturas distintas de Convolucionais e Transformers, abrangendo cinco tarefas de classificação de imagens e uma tarefa de geração de texto. Os códigos-fonte estão disponíveis em https://github.com/AIResearch-Group/NeuralMark.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades impressionantes em compreensão e geração de linguagem natural, mas apresentam problemas com a consistência lógica nas saídas que geram. Como podemos aproveitar o conhecimento paramétrico de ampla cobertura dos LLMs no raciocínio formal, apesar de sua inconsistência? Apresentamos um método para integrar diretamente um LLM na função de interpretação da semântica formal de uma lógica paraconsistente. Fornecemos evidências experimentais da viabilidade do método ao avaliar a função usando conjuntos de dados criados a partir de vários benchmarks de factualidade de curta duração. Diferente de trabalhos anteriores, nosso método oferece uma estrutura teórica para o raciocínio neuro-simbólico que aproveita o conhecimento de um LLM enquanto preserva as propriedades de solidez e completude da lógica subjacente.