Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os modelos de linguagem se tornam cada vez mais capazes, os usuários esperam que eles forneçam não apenas respostas precisas, mas também comportamentos alinhados com diversas preferências humanas em uma variedade de cenários. Para alcançar isso, os pipelines de Aprendizado por Reforço (RL) começaram a incorporar múltiplas recompensas, cada uma capturando uma preferência distinta, para orientar os modelos em direção a esses comportamentos desejados. No entanto, trabalhos recentes têm aplicado por padrão a Otimização de Política por Grupo Relativo (GRPO) em configurações de múltiplas recompensas sem examinar sua adequação. Neste artigo, demonstramos que a aplicação direta do GRPO para normalizar combinações distintas de recompensa de *rollout* faz com que elas colapsem em valores de vantagem idênticos, reduzindo a resolução do sinal de treinamento e resultando em convergência subótima e, em alguns casos, em falha precoce do treinamento. Em seguida, introduzimos a Otimização de Política com Normalização Desacoplada de Recompensa de Grupo (GDPO), um novo método de otimização de política para resolver esses problemas, desacoplando a normalização de recompensas individuais, preservando de forma mais fiel suas diferenças relativas e permitindo uma otimização de múltiplas recompensas mais precisa, juntamente com uma estabilidade de treinamento substancialmente melhorada. Comparamos o GDPO com o GRPO em três tarefas: chamada de ferramentas, raciocínio matemático e raciocínio de codificação, avaliando tanto métricas de correção (precisão, taxa de bugs) quanto métricas de aderência a restrições (formato, comprimento). Em todas as configurações, o GDPO supera consistentemente o GRPO, demonstrando sua eficácia e generalizabilidade para a otimização de aprendizado por reforço com múltiplas recompensas.
A constância de cor noturna permanece um problema desafiador na fotografia computacional devido ao ruído em condições de baixa luminosidade e às complexas condições de iluminação. Apresentamos o RL-AWB, uma nova estrutura que combina métodos estatísticos com aprendizado por reforço profundo para o balanço de brancos noturno. Nosso método começa com um algoritmo estatístico adaptado para cenas noturnas, integrando a detecção de pixels cinza salientes com uma nova estimativa de iluminação. Com base nessa fundação, desenvolvemos a primeira abordagem de aprendizado por reforço profundo para constância de cor que utiliza o algoritmo estatístico como seu cerne, imitando especialistas profissionais em ajuste de AWB ao otimizar dinamicamente parâmetros para cada imagem. Para facilitar a avaliação cruzada entre sensores, introduzimos o primeiro conjunto de dados noturnos multi-sensor. Resultados experimentais demonstram que nosso método alcança capacidade de generalização superior em imagens com baixa luminosidade e bem iluminadas. Página do projeto: https://ntuneillee.github.io/research/rl-awb/
A aplicação de *weight decay* (WD) a camadas matriciais é uma prática padrão no pré-treinamento de grandes modelos de linguagem. Trabalhos anteriores sugerem que o ruído do gradiente estocástico induz uma expansão do tipo Browniano das matrizes de pesos W, cujo crescimento é neutralizado pelo WD, levando a um equilíbrio WD-ruído com uma determinada norma de peso ||W||. Neste trabalho, vemos a norma de equilíbrio como um artefacto prejudicial do procedimento de treino e abordamo-la através da introdução de multiplicadores adaptáveis para aprender a escala ótima. Primeiro, associamos um multiplicador escalar adaptável a W e confirmamos que a norma de equilíbrio WD-ruído é subótima: a escala aprendida adapta-se aos dados e melhora o desempenho. Em seguida, argumentamos que as normas individuais de linhas e colunas estão igualmente restringidas e libertamos a sua escala através da introdução de multiplicadores adaptáveis por linha e por coluna. O nosso método pode ser visto como uma generalização adaptável e mais expressiva dos multiplicadores *muP*. Ele supera uma linha de base *muP* bem sintonizada, reduz a sobrecarga computacional do ajuste de multiplicadores e levanta questões práticas, como simetrias no *forward-pass* e a escalabilidade em largura dos multiplicadores aprendidos. Finalmente, validamos os multiplicadores adaptáveis com os otimizadores Adam e Muon, onde se verifica uma melhoria nas avaliações *downstream* equivalente à melhoria obtida ao mudar de Adam para Muon.
Os modelos de linguagem de grande escala (LLMs) demonstram pontos fortes em diversos domínios. No entanto, alcançar um desempenho robusto em todos estes domínios com um único modelo de propósito geral normalmente exige uma escalagem para tamanhos que são proibitivamente caros para treinar e implantar. Por outro lado, embora os modelos menores especializados por domínio sejam muito mais eficientes, eles lutam para generalizar além das suas distribuições de treino. Para resolver este dilema, propomos o FusionRoute, um quadro de colaboração multi-LLM robusto e eficaz a nível de *token*, no qual um roteador leve seleciona simultaneamente (i) o especialista mais adequado em cada passo de descodificação e (ii) contribui com um *logit* complementar que refina ou corrige a distribuição do próximo *token* do especialista selecionado através da adição de *logits*. Ao contrário dos métodos de colaboração a nível de *token* existentes, que dependem exclusivamente de saídas fixas dos especialistas, fornecemos uma análise teórica que mostra que o roteamento puramente baseado em especialistas é fundamentalmente limitado: a menos que se verifiquem pressupostos fortes de cobertura global, ele não pode, em geral, realizar a política de descodificação ótima. Ao aumentar a seleção de especialistas com um gerador complementar treinável, o FusionRoute expande a classe de políticas eficazes e permite a recuperação de funções de valor ótimas sob condições suaves. Empiricamente, tanto nas famílias Llama-3 como Gemma-2, e em diversos *benchmarks* abrangendo raciocínio matemático, geração de código e seguimento de instruções, o FusionRoute supera a colaboração a nível de sequência e de *token*, a fusão de modelos e o afinamento direto, mantendo-se competitivo com especialistas de domínio nas suas respetivas tarefas.
A razão em cadeia de pensamento (CoT) emergiu como uma ferramenta poderosa para modelos de linguagem grandes multimodais em tarefas de compreensão de vídeo. No entanto, sua necessidade e vantagens sobre respostas diretas permanecem pouco exploradas. Neste artigo, primeiro demonstramos que, para modelos de vídeo treinados com RL, a resposta direta frequentemente iguala ou até supera o desempenho do CoT, apesar do CoT produzir análises passo a passo com um custo computacional maior. Motivados por isso, propomos o VideoAuto-R1, uma estrutura de compreensão de vídeo que adota uma estratégia de raciocinar-quando-necessário. Durante o treinamento, nossa abordagem segue um paradigma de Pensar Uma Vez, Responder Duas Vezes: o modelo primeiro gera uma resposta inicial, depois executa o raciocínio e, finalmente, produz uma resposta revisada. Ambas as respostas são supervisionadas por meio de recompensas verificáveis. Durante a inferência, o modelo usa a pontuação de confiança da resposta inicial para decidir se prossegue com o raciocínio. Em benchmarks de Q&A e de enquadramento de vídeo, o VideoAuto-R1 alcança precisão de última geração com eficiência significativamente melhorada, reduzindo o comprimento médio da resposta em ~3,3x, por exemplo, de 149 para apenas 44 tokens. Além disso, observamos uma baixa taxa de ativação do modo de pensamento em tarefas orientadas à percepção, mas uma taxa mais alta em tarefas intensivas em raciocínio. Isso sugere que o raciocínio linguístico explícito é geralmente benéfico, mas nem sempre necessário.
A utilização de Large Language Models (LLMs) para raciocínio complexo é frequentemente limitada por elevados custos computacionais e latência, enquanto os Small Language Models (SLMs) eficientes em recursos geralmente carecem da capacidade de raciocínio necessária. As abordagens colaborativas existentes, como cascata ou roteamento, operam a uma granularidade grossa, delegando consultas inteiras aos LLMs, resultando num desperdício computacional significativo quando o SLM é capaz de lidar com a maioria das etapas de raciocínio. Para resolver isto, propomos o RelayLLM, um novo quadro para raciocínio eficiente através de descodificação colaborativa a nível de *token*. Ao contrário dos roteadores, o RelayLLM capacita o SLM para atuar como um controlador ativo que invoca dinamicamente o LLM apenas para *tokens* críticos através de um comando especial, efetivamente "retransmitindo" o processo de geração. Introduzimos um quadro de treino em duas fases, incluindo um período de aquecimento e a Otimização de Política Relativa de Grupo (Group Relative Policy Optimization - GRPO), para ensinar o modelo a equilibrar a independência com a procura estratégica de ajuda. Resultados empíricos em seis benchmarks demonstram que o RelayLLM atinge uma precisão média de 49,52%, preenchendo eficazmente a lacuna de desempenho entre os dois modelos. Notavelmente, isto é conseguido invocando o LLM para apenas 1,07% do total de *tokens* gerados, oferecendo uma redução de custos de 98,2% em comparação com roteadores aleatórios com desempenho equivalente.
Os agentes de LLM emergiram como sistemas poderosos para lidar com tarefas multi-turno, intercalando raciocínio interno e interações com ferramentas externas. O Reforço de Aprendizagem Agêntico (Agentic Reinforcement Learning) tem recentemente atraído significativa atenção da pesquisa como um paradigma crítico de pós-treinamento para refinar ainda mais essas capacidades. Neste artigo, apresentamos o AT²PO (Otimização de Política Baseada em Turnos Agênticos via Busca em Árvore), uma estrutura unificada para RL agêntico multi-turno que aborda três desafios centrais: diversidade limitada de exploração, atribuição de crédito esparsa e otimização de política desalinhada. O AT²PO introduz uma estrutura de árvore baseada em turnos que permite conjuntamente a Expansão de Árvore Guiada por Entropia para exploração estratégica e a Atribuição de Crédito por Turno para propagação de recompensa refinada a partir de resultados esparsos. Complementando isso, propomos a Otimização de Política Baseada em Turnos Agênticos (Agentic Turn-based Policy Optimization), um objetivo de aprendizagem em nível de turno que alinha as atualizações da política com a granularidade natural de decisão das interações agênticas. A ATPO é ortogonal à busca em árvore e pode ser facilmente integrada em qualquer pipeline de RL multi-turno. Experimentos em sete benchmarks demonstram melhorias consistentes em relação à linha de base state-of-the-art de até 1,84 pontos percentuais em média, com estudos de ablação validando a eficácia de cada componente. Nosso código está disponível em https://github.com/zzfoutofspace/ATPO.
A diversidade, quantidade e qualidade dos dados de manipulação são fundamentais para treinar políticas de robô eficazes. No entanto, devido a limitações de hardware e configuração física, a coleta de dados de manipulação em larga escala no mundo real continua sendo difícil de dimensionar em ambientes diversos. Trabalhos recentes utilizam modelos de difusão de imagem condicionados por texto para aumentar dados de manipulação, alterando os planos de fundo e os objetos sobre a mesa nas observações visuais. No entanto, essas abordagens frequentemente ignoram a necessidade prática de observações coerentes temporalmente e de múltiplas visões, exigidas pelos modelos de política de última geração. Além disso, apenas prompts de texto não podem especificar de forma confiável a configuração da cena. Para fornecer ao modelo de difusão uma orientação visual explícita, introduzimos o *prompting* de identidade visual, que fornece imagens exemplares como entradas de condicionamento para orientar a geração da configuração de cena desejada. Para isso, também construímos um *pipeline* escalável para criar um banco de identidades visuais a partir de grandes conjuntos de dados de robótica. A utilização dos nossos dados de manipulação aumentados para treinar modelos subsequentes de política visão-linguagem-ação e visuomotora resulta em ganhos de desempenho consistentes, tanto em ambientes de simulação quanto em configurações com robôs reais.
Os modelos visão-linguagem (VLMs) alcançam desempenho notável, mas permanecem vulneráveis a ataques adversariais. A entropia, uma medida da incerteza do modelo, está fortemente correlacionada com a confiabilidade dos VLMs. Ataques anteriores baseados em entropia maximizam a incerteza em todas as etapas de decodificação, assumindo implicitamente que cada token contribui igualmente para a instabilidade da geração. Nós demonstramos, em vez disso, que uma pequena fração (cerca de 20%) de tokens de alta entropia, ou seja, pontos de decisão críticos na geração autoregressiva, governa desproporcionalmente as trajetórias de saída. Ao concentrar perturbações adversariais nessas posições, alcançamos degradação semântica comparável aos métodos globais, utilizando orçamentos substancialmente menores. Mais importante ainda, em múltiplos VLMs representativos, tais ataques seletivos convertem 35-49% das saídas benignas em prejudiciais, expondo um risco de segurança mais crítico. Notavelmente, essas bifurcações vulneráveis de alta entropia recorrem em VLMs arquitetonicamente diversos, permitindo uma transferibilidade viável (taxas de conteúdo prejudicial de 17-26% em alvos não vistos). Motivados por essas descobertas, propomos Ataques Adversariais Guiados por Banco de Entropia (EGA), que alcança taxas de sucesso de ataque competitivas (93-95%) juntamente com alta conversão para conteúdo prejudicial, revelando assim novas fragilidades nos mecanismos de segurança dos VLMs atuais.
O LLM-como-Juiz revolucionou a avaliação de IA ao aproveitar modelos de linguagem grandes para avaliações escaláveis. No entanto, à medida que os objetos de avaliação se tornam cada mais complexos, especializados e multi-etapas, a confiabilidade do LLM-como-Juiz tornou-se limitada por vieses inerentes, raciocínio superficial de passagem única e a incapacidade de verificar as avaliações face a observações do mundo real. Isso catalisou a transição para o Agente-como-Juiz, onde juízes agentivos empregam planeamento, verificação aumentada por ferramentas, colaboração multiagente e memória persistente para permitir avaliações mais robustas, verificáveis e nuanceadas. Apesar da rápida proliferação de sistemas de avaliação agentivos, a área carece de uma estrutura unificada para navegar neste panorama em mudança. Para preencher esta lacuna, apresentamos o primeiro levantamento abrangente que traça esta evolução. Especificamente, identificamos dimensões-chave que caracterizam esta mudança de paradigma e estabelecemos uma taxonomia de desenvolvimento. Organizamos as metodologias centrais e examinamos aplicações em domínios gerais e profissionais. Além disso, analisamos os desafios de fronteira e identificamos direções de pesquisa promissoras, fornecendo, em última análise, um roteiro claro para a próxima geração de avaliação agentiva.
Os modelos de mundo em vídeo visam simular ambientes dinâmicos do mundo real, mas os métodos existentes lutam para fornecer controle unificado e preciso sobre a câmera e o movimento de múltiplos objetos, uma vez que os vídeos operam inerentemente dinâmicas no plano de imagem 2D projetado. Para preencher essa lacuna, apresentamos o VerseCrafter, um modelo de mundo em vídeo com consciência 4D que permite o controle explícito e coerente tanto da dinâmica da câmera quanto dos objetos dentro de um estado mundial geométrico 4D unificado. Nossa abordagem centra-se numa nova representação de Controle Geométrico 4D, que codifica o estado mundial através de uma nuvem de pontos de fundo estática e trajetórias de Gaussianas 3D por objeto. Esta representação captura não apenas o caminho de um objeto, mas também a sua ocupação probabilística 3D ao longo do tempo, oferecendo uma alternativa flexível e agnóstica a categorias, em oposição a modelos de caixas delimitadoras rígidas ou paramétricos. Estes controles 4D são renderizados em sinais de condicionamento para um modelo de difusão de vídeo pré-treinado, permitindo a geração de vídeos de alta fidelidade e com consistência de visualização que aderem precisamente às dinâmicas especificadas. Infelizmente, outro grande desafio reside na escassez de dados de treino em larga escala com anotações 4D explícitas. Resolvemos isto desenvolvendo um motor de dados automático que extrai os controles 4D necessários a partir de vídeos do mundo real, permitindo-nos treinar nosso modelo num conjunto de dados massivo e diversificado.
Os modelos de Mistura de Especialistas são amplamente assumidos como capazes de alcançar especialização de domínio por meio de roteamento esparso. Neste trabalho, questionamos essa premissa ao introduzir o COMMITTEEAUDIT, uma estrutura *post hoc* que analisa o comportamento de roteamento no nível de grupos de especialistas, e não de especialistas individuais. Em três modelos representativos e no benchmark MMLU, descobrimos um Comitê Permanente invariante ao domínio. Trata-se de uma coalizão compacta de especialistas roteados que consistentemente captura a maior parte da massa de roteamento entre domínios, camadas e orçamentos de roteamento, mesmo quando as arquiteturas já incluem especialistas compartilhados. Análises qualitativas mostram ainda que os Comitês Permanentes ancoram a estrutura e a sintaxe do raciocínio, enquanto especialistas periféricos lidam com conhecimentos específicos do domínio. Essas descobertas revelam um forte viés estrutural em direção a uma computação centralizada, sugerindo que a especialização em modelos de Mistura de Especialistas é muito menos difundida do que se acredita comumente. Este viés inerente também indica que os objetivos de treinamento atuais, como as perdas de balanceamento de carga que impõem uma utilização uniforme dos especialistas, podem estar atuando contra o caminho natural de otimização do modelo, limitando assim a eficiência do treinamento e o desempenho.
O raciocínio Chain-of-Thought (CoT) melhora a resolução de problemas matemáticos multi-etapas em modelos de linguagem grandes, mas permanece vulnerável ao viés de exposição e à acumulação de erros, uma vez que erros iniciais propagam-se irreversivelmente através da decodagem autorregressiva. Neste trabalho, propomos o DiffCoT, uma estrutura CoT de estilo difusão que reformula o raciocínio CoT como um processo iterativo de remoção de ruído. O DiffCoT integra princípios de difusão ao nível da etapa de raciocínio através de um mecanismo de janela deslizante, permitindo a geração unificada e a correção retrospectiva de etapas intermédias, preservando a autorregressão a nível de token. Para manter a consistência causal, introduzimos ainda um esquema de ruído de difusão causal que respeita a estrutura temporal das cadeias de raciocínio. Experiências extensas em três *benchmarks* de raciocínio CoT multi-etapas, utilizando diversas arquiteturas de modelos, demonstram que o DiffCoT supera consistentemente os métodos existentes de otimização de preferência CoT, resultando numa maior robustez e capacidade de correção de erros no raciocínio CoT.
Métodos de re-renderização generativa de vídeo controlados por câmera, como o ReCamMaster, alcançaram progressos notáveis. No entanto, apesar do sucesso em ambientes de visão única, essas abordagens frequentemente enfrentam dificuldades para manter a consistência em cenários multivisuais. Garantir a coerência espaço-temporal em regiões alucinadas permanece um desafio devido à estocasticidade inerente dos modelos generativos. Para resolver isso, introduzimos o PlenopticDreamer, uma estrutura que sincroniza alucinações generativas para manter uma memória espaço-temporal. A ideia central é treinar um modelo de vídeo com múltiplas entradas e única saída de maneira autorregressiva, auxiliado por uma estratégia de recuperação de vídeo guiada por câmera que seleciona adaptativamente vídeos salientes de gerações anteriores como entradas condicionais. Adicionalmente, nosso treinamento incorpora dimensionamento progressivo de contexto para melhorar a convergência, autocondicionamento para aumentar a robustez contra degradação visual de longo prazo causada por acumulação de erros, e um mecanismo de condicionamento de vídeos longos para suportar geração estendida de vídeo. Experimentos extensivos nos benchmarks Basic e Agibot demonstram que o PlenopticDreamer alcança state-of-the-art em re-renderização de vídeo, oferecendo sincronização de vista superior, visuais de alta fidelidade, controle preciso de câmera e transformações de vista diversificadas (por exemplo, de terceira pessoa para terceira pessoa, e de vista de cabeça para vista de garra na manipulação robótica). Página do projeto: https://research.nvidia.com/labs/dir/plenopticdreamer/
A resposta a perguntas incorporada (EQA) em ambientes 3D frequentemente requer a recolha de contexto que está distribuído por múltiplos pontos de vista e parcialmente ocluído. No entanto, a maioria dos modelos visão-linguagem (VLMs) recentes está limitada a um conjunto fixo e finito de vistas de entrada, o que limita a sua capacidade de adquirir contexto relevante para a pergunta no momento da inferência e dificulta o raciocínio espacial complexo. Propomos o *prompting* Chain-of-View (CoV), uma estrutura de raciocínio sem treino, aplicada no momento do teste, que transforma um VLM num raciocinador ativo de pontos de vista através de um processo de exploração do geral para o específico. O CoV emprega primeiro um agente de Seleção de Vista para filtrar quadros redundantes e identificar vistas âncora alinhadas com a pergunta. Em seguida, realiza um ajuste de vista de granularidade fina, intercalando raciocínio iterativo com ações discretas da câmara, obtendo novas observações da representação da cena 3D subjacente até que contexto suficiente seja reunido ou um orçamento de etapas seja atingido. Avaliamos o CoV no OpenEQA em quatro VLMs principais e obtivemos uma melhoria média de +11,56% no LLM-Match, com um ganho máximo de +13,62% no Qwen3-VL-Flash. O CoV exibe ainda uma escala no tempo de teste: aumentar o orçamento mínimo de ação produz uma melhoria média adicional de +2,51%, atingindo um pico de +3,73% no Gemini-2.5-Flash. No ScanQA e no SQA3D, o CoV apresenta um desempenho sólido (por exemplo, 116 CIDEr / 31,9 EM@1 no ScanQA e 51,1 EM@1 no SQA3D). Globalmente, estes resultados sugerem que a seleção de vistas alinhada com a pergunta, aliada a uma busca de vistas abertas, é uma estratégia eficaz e agnóstica ao modelo para melhorar o raciocínio espacial na EQA 3D sem treino adicional.
A capacidade de raciocínio de modelos de linguagem de grande escala (LLMs) pode ser libertada com aprendizagem por reforço (RL) (OpenAI, 2024; DeepSeek-AI et al., 2025a; Zeng et al., 2025). O sucesso das tentativas existentes de RL em LLMs depende geralmente de amostras de alta qualidade na ordem dos milhares ou mais. Neste artigo, questionamos pressupostos fundamentais sobre os requisitos de dados em RL para LLMs, demonstrando a notável eficácia da aprendizagem *one-shot*. Especificamente, introduzimos a *polymath learning*, uma estrutura para conceber uma única amostra de treino que suscita um impacto multidisciplinar. Apresentamos três conclusões principais: (1) Uma única amostra de raciocínio matemático, estrategicamente selecionada, pode produzir melhorias de desempenho significativas em múltiplos domínios, incluindo física, química e biologia, com RL; (2) As competências matemáticas salientes para o raciocínio sugerem as características da amostra *polymath* ideal; e (3) Uma amostra sintética concebida que integra elementos multidisciplinares supera o treino com amostras individuais que ocorrem naturalmente. A nossa abordagem atinge um desempenho superior ao treino com conjuntos de dados maiores em várias benchmarks de raciocínio, demonstrando que a qualidade e o desenho da amostra, em vez da quantidade, podem ser a chave para libertar capacidades de raciocínio melhoradas em modelos de linguagem. Os nossos resultados sugerem uma mudança, designada por *sample engineering*, no sentido da engenharia de precisão de amostras de treino, em vez de simplesmente aumentar o volume de dados.
A clonagem de comportamento está a viver um ressurgimento de popularidade, uma vez que a escalabilidade tanto dos modelos como do volume de dados se prova capaz de fornecer uma base sólida para muitas tarefas de interesse. Neste trabalho, apresentamos uma receita aberta para treinar um modelo de base para jogar videojogos, concebido para inferência em tempo real numa GPU de consumo. Disponibilizamos todos os dados (mais de 8300 horas de gameplay humano de alta qualidade), o código de treino e inferência, e os *checkpoints* pré-treinados sob uma licença aberta. Demonstramos que o nosso melhor modelo é capaz de jogar uma variedade de videojogos 3D a um nível competitivo com o desempenho humano. Utilizamos esta receita para examinar sistematicamente as leis de escalabilidade da clonagem de comportamento, de modo a compreender como o desempenho e o raciocínio causal do modelo variam com a escala do modelo e dos dados. Primeiro, mostramos num problema-teste simples que, para alguns tipos de raciocínio causal, o aumento tanto da quantidade de dados de treino como da profundidade da rede resulta na aprendizagem de uma política mais causal por parte do modelo. De seguida, estudamos sistematicamente como a causalidade varia com o número de parâmetros (e a profundidade) e as etapas de treino em modelos escalados até 1,2 mil milhões de parâmetros, e encontramos resultados de escalabilidade semelhantes aos observados no problema-teste.
A Resposta a Perguntas sobre Documentos (DocQA) concentra-se em responder a perguntas baseadas em documentos fornecidos, no entanto, os agentes de DocQA existentes carecem de uma utilização eficaz de ferramentas e dependem maioritariamente de modelos de código fechado. Neste trabalho, apresentamos o DocDancer, um agente de documentos de código aberto treinado de forma integral. Formula-mos o DocQA como um problema de busca de informação e propomos uma arquitetura de agente orientada a ferramentas que modela explicitamente a exploração e compreensão de documentos. Para permitir o treino integral de tais agentes, introduzimos um pipeline de síntese de dados do tipo Exploração-antes-de-Síntese que resolve a escassez de dados de treino de alta qualidade para o DocQA. O treino com os dados sintetizados, e os modelos resultantes avaliados em dois benchmarks de compreensão de documentos de contexto longo, o MMLongBench-Doc e o DocBench, demonstram a sua eficácia. Uma análise mais aprofundada fornece informações valiosas para o design de ferramentas agentes e dados sintéticos.
A geração e edição de imagens em contexto (ICGE) permite que os usuários especifiquem conceitos visuais por meio de prompts intercalados de imagem e texto, exigindo uma compreensão precisa e uma execução fiel da intenção do usuário. Embora os modelos multimodais unificados recentes exibam capacidades de compreensão promissoras, esses pontos fortes frequentemente não são transferidos de forma eficaz para a geração de imagens. Apresentamos o Re-Align, uma estrutura unificada que preenche a lacuna entre compreensão e geração por meio de um alinhamento guiado por raciocínio estruturado. Em seu núcleo está a Cadeia de Pensamento em Contexto (IC-CoT), um paradigma de raciocínio estruturado que desacopla a orientação semântica e a associação de referência, fornecendo um alvo textual claro e mitigando a confusão entre imagens de referência. Além disso, o Re-Align introduz um esquema eficaz de treinamento por RL que aproveita uma recompensa substituta para medir o alinhamento entre o texto de raciocínio estruturado e a imagem gerada, melhorando assim o desempenho geral do modelo em tarefas de ICGE. Experimentos extensivos verificam que o Re-Align supera métodos competitivos de escala e recursos de modelo comparáveis tanto em tarefas de geração quanto de edição de imagens em contexto.
Os recentes avanços em modelos de difusão de vídeo têm migrado para arquiteturas baseadas em transformadores, alcançando a geração de vídeo de última geração, mas ao custo de uma complexidade de atenção quadrática, o que limita severamente a escalabilidade para sequências mais longas. Apresentamos o ReHyAt, um mecanismo de Atenção Híbrida Recorrente que combina a fidelidade da atenção softmax com a eficiência da atenção linear, permitindo uma reformulação recorrente por blocos e um uso de memória constante. Diferente do SANA Video, concorrente e puramente linear, o design híbrido do ReHyAt permite uma destilação eficiente a partir de modelos existentes baseados em softmax, reduzindo o custo de treinamento em duas ordens de magnitude para aproximadamente 160 horas de GPU, mantendo-se competitivo em qualidade. Nossa pipeline leve de destilação e ajuste fino oferece uma receita que pode ser aplicada a futuros modelos bidirecionais de última geração baseados em softmax. Experimentos no VBench e VBench-2.0, bem como um estudo de preferência humana, demonstram que o ReHyAt alcança qualidade de vídeo state-of-the-art enquanto reduz o custo de atenção de quadrático para linear, desbloqueando uma escalabilidade prática para geração de vídeo de longa duração e em dispositivos. A página do projeto está disponível em https://qualcomm-ai-research.github.io/rehyat.
Modelos piramidais recentemente propostos decompõem os processos convencionais de difusão direta e reversa em múltiplos estágios que operam em resoluções variadas. Esses modelos processam entradas com níveis mais elevados de ruído em resoluções mais baixas, enquanto entradas menos ruidosas são processadas em resoluções mais altas. Essa abordagem hierárquica reduz significativamente o custo computacional da inferência em modelos de eliminação de ruído de múltiplas etapas. No entanto, os modelos piramidais de vídeo de código aberto existentes foram treinados do zero e tendem a ter desempenho inferior em comparação com sistemas de última geração em termos de plausibilidade visual. Neste trabalho, apresentamos um *pipeline* que converte um modelo de difusão pré-treinado em um modelo piramidal por meio de um ajuste fino de baixo custo, alcançando essa transformação sem degradação na qualidade dos vídeos gerados. Além disso, investigamos e comparamos várias estratégias de destilação de etapas em modelos piramidais, visando aprimorar ainda mais a eficiência da inferência. Nossos resultados estão disponíveis em https://qualcomm-ai-research.github.io/PyramidalWan.
Os modelos autorregressivos (AR) obtiveram sucesso notável na síntese de imagens, mas a sua natureza sequencial impõe restrições significativas de latência. A Decodificação Especulativa oferece uma via promissora para aceleração, mas as abordagens existentes são limitadas pela ambiguidade a nível de token e pela falta de consciência espacial. Neste trabalho, introduzimos a Decodificação Especulativa Local Multi-Escala (MuLo-SD), uma estrutura nova que combina a geração de rascunhos em multi-resolução com verificação espacialmente informada para acelerar a geração de imagens AR. O nosso método aproveita um gerador de baixa resolução emparelhado com up-samplers aprendidos para propor tokens de imagem candidatos, que são depois verificados em paralelo por um modelo alvo de alta resolução. Crucialmente, incorporamos um mecanismo local de rejeição e reamostragem, permitindo uma correção eficiente de erros de rascunho ao focar em vizinhanças espaciais, em vez de reamostragem por varredura raster após a primeira rejeição. Demonstramos que a MuLo-SD alcança acelerações substanciais - até 1,7x - superando linhas de base fortes de decodificação especulativa, como EAGLE-2 e LANTERN, em termos de aceleração, mantendo uma alinhamento semântico e qualidade perceptual comparáveis. Estes resultados são validados usando GenEval, DPG-Bench e FID/HPSv2 na divisão de validação de 5k do MS-COCO. Ablações extensivas destacam o impacto do design de up-sampling, do pooling de probabilidades e da rejeição e reamostragem local com expansão de vizinhança. A nossa abordagem estabelece um novo estado da arte em decodificação especulativa para síntese de imagens, colmatando o fosso entre eficiência e fidelidade.
Apresentamos o ProFuse, uma estrutura eficiente e consciente do contexto para compreensão de cenas 3D com vocabulário aberto usando 3D Gaussian Splatting (3DGS). O *pipeline* melhora a consistência entre vistas e a coesão intramáscara numa configuração de registo direto, adicionando sobrecarga mínima e não necessitando de afinação supervisionada por renderização. Em vez de depender de uma cena 3DGS pré-treinada, introduzimos uma fase de pré-registo guiado por correspondências densas que inicializa os Gaussianos com geometria precisa enquanto constrói conjuntamente Propostas de Contexto 3D através de agrupamento entre vistas. Cada proposta transporta uma característica global obtida através da agregação ponderada de *embeddings* dos membros, e esta característica é fundida nos Gaussianos durante o registo direto para manter a coerência linguística por primitiva entre vistas. Com as associações estabelecidas antecipadamente, a fusão semântica não requer otimização adicional para além da reconstrução padrão, e o modelo mantém o refinamento geométrico sem densificação. O ProFuse alcança uma compreensão robusta de cenas 3DGS com vocabulário aberto enquanto conclui a anexação semântica em cerca de cinco minutos por cena, o que é duas vezes mais rápido que o estado da arte (SOTA).
Os avanços recentes em agentes de grandes modelos de linguagem (LLM) têm-se focado principalmente na incorporação de mecanismos de autoaperfeiçoamento no agente ou na busca por muitas variantes concorrentes. Embora essas abordagens possam elevar as pontuações agregadas, frequentemente produzem trajetórias de melhoria instáveis e de difícil auditoria, dificultando a garantia de não-regressão ou a análise de falhas entre versões. Reformulamos a melhoria de agentes como engenharia de release: os agentes são tratados como artefatos entregáveis, e a melhoria é externalizada em um pipeline de lançamento com consciência de regressão. Apresentamos o AgentDevel, um pipeline de engenharia de release que executa iterativamente o agente atual, produz sinais de qualidade cegos à implementação e baseados em sintomas a partir de traços de execução, sintetiza um único candidato a release (RC) via diagnóstico executável e o promove sob um critério de aprovação centrado em inversões. O AgentDevel apresenta três projetos centrais: (i) um crítico de LLM cego à implementação que caracteriza as aparências de falha sem acessar os internos do agente, (ii) diagnóstico executável baseado em script que agrega padrões de sintoma dominantes e produz especificações de engenharia auditáveis, e (iii) critério de aprovação centrado em inversões que prioriza regressões de aprovado para reprovado e correções de reprovado para aprovado como evidência de primeira classe. Diferente da busca baseada em população ou do autorrefinamento interno ao agente, o AgentDevel mantém uma única linha de versão canônica e enfatiza a não-regressão como objetivo primário. Experimentos em benchmarks com forte componente de execução demonstram que o AgentDevel produz melhorias estáveis com significativamente menos regressões, gerando artefatos reproduzíveis e auditáveis. No geral, o AgentDevel fornece uma disciplina de desenvolvimento prática para construir, depurar e lançar agentes de LLM como desenvolvimento de software.
O alinhamento pós-treinamento de modelos de difusão baseia-se em sinais simplificados, como recompensas escalares ou preferências binárias. Isto limita o alinhamento com a expertise humana complexa, que é hierárquica e de granularidade fina. Para resolver isto, começamos por construir, com especialistas de domínio, um critério de avaliação hierárquico e de granularidade fina, que decompõe a qualidade da imagem em múltiplos atributos positivos e negativos organizados numa estrutura em árvore. Com base nisto, propomos um framework de alinhamento em duas etapas. Primeiro, injetamos conhecimento de domínio num modelo de difusão auxiliar através de Ajuste Fino Supervisionado. Segundo, introduzimos a Optimização de Preferências Complexas (CPO), que estende o DPO para alinhar o modelo de difusão alvo com os nossos critérios não-binários e hierárquicos. Especificamente, reformulamos o problema de alinhamento para maximizar simultaneamente a probabilidade dos atributos positivos e minimizar a probabilidade dos atributos negativos, utilizando o modelo de difusão auxiliar. Instanciamos a nossa abordagem no domínio da geração de pinturas e realizamos o treino de CPO com um conjunto de dados anotado de pinturas com atributos de granularidade fina baseados nos nossos critérios. Experiências extensivas demonstram que o CPO melhora significativamente a qualidade da geração e o alinhamento com a expertise, abrindo novas perspetivas para o alinhamento com critérios de granularidade fina.
Fronteiras suaves, como fios de cabelo finos, são comumente observadas em imagens naturais e geradas por computador, mas permanecem um desafio para a visão 3D devido à mistura ambígua de pistas de primeiro plano e fundo. Este artigo apresenta os Guardiões do Cabelo (HairGuard), uma estrutura projetada para recuperar detalhes refinados de fronteiras suaves em tarefas de visão 3D. Especificamente, propomos primeiro um *pipeline* inovador de curadoria de dados que aproveita conjuntos de dados de *matting* de imagens para treinamento e projetamos uma rede de correção de profundidade para identificar automaticamente regiões de fronteira suave. Com um módulo residual com portão, o corretor de profundidade refina a profundidade precisamente ao redor das fronteiras suaves, mantendo a qualidade global da profundidade, permitindo integração *plug-and-play* com modelos de profundidade de última geração. Para síntese de vistas, realizamos uma deformação direta baseada em profundidade para reter texturas de alta fidelidade, seguida por um pintor generativo de cenas que preenche regiões desocludidas e elimina artefatos redundantes de fundo dentro das fronteiras suaves. Finalmente, um fusionador de cores combina adaptativamente os resultados deformados e reconstituídos para produzir novas vistas com geometria consistente e detalhes refinados. Experimentos extensivos demonstram que o HairGuard alcança desempenho de última geração em estimativa de profundidade monocular, conversão de imagem/vídeo estéreo e síntese de novas vistas, com melhorias significativas nas regiões de fronteira suave.
Apresentamos o IMDD-1M, o primeiro conjunto de dados de grande escala para Defeitos Industriais Multimodais, composto por 1.000.000 de pares imagem-texto alinhados, concebido para avançar a aprendizagem multimodal na manufatura e inspeção de qualidade. O IMDD-1M contém defeitos do mundo real em alta resolução, abrangendo mais de 60 categorias de materiais e mais de 400 tipos de defeitos, cada um acompanhado por anotações validadas por especialistas e descrições textuais detalhadas que especificam a localização, severidade e atributos contextuais do defeito. Este conjunto de dados permite uma ampla gama de aplicações, incluindo classificação, segmentação, recuperação, legendagem e modelagem generativa. Com base no IMDD-1M, treinámos um modelo de base visão-linguagem baseado em difusão a partir do zero, especificamente adaptado para cenários industriais. O modelo serve como uma base generalizável que pode ser eficientemente adaptada a domínios especializados através de *fine-tuning* leve. Utilizando menos de 5% dos dados específicos da tarefa exigidos por modelos especializados dedicados, atinge um desempenho comparável, destacando o potencial da adaptação eficiente de dados em modelos de base para inspeção industrial e geração, abrindo caminho para uma inteligência de manufatura escalável, adaptativa ao domínio e fundamentada em conhecimento.
Os modelos generativos são cada vez mais utilizados na visão computacional 3D para sintetizar novas formas, mas ainda não está claro se a sua geração depende da memorização das formas de treino. Compreender essa memorização pode ajudar a prevenir a fuga de dados de treino e melhorar a diversidade dos resultados gerados. Neste artigo, projetamos um quadro de avaliação para quantificar a memorização em modelos generativos 3D e estudar a influência de diferentes dados e designs de modelação na memorização. Primeiro, aplicamos o nosso quadro para quantificar a memorização em métodos existentes. Em seguida, através de experiências controladas com um modelo de difusão de vetor-conjunto (Vecset) latente, descobrimos que, no lado dos dados, a memorização depende da modalidade dos dados e aumenta com a diversidade dos dados e com condicionamento mais granular; no lado da modelação, atinge o pico numa escala de orientação moderada e pode ser mitigada por Vecsets mais longos e uma simples aumento de dados por rotação. Em conjunto, o nosso quadro e análise fornecem uma compreensão empírica da memorização em modelos generativos 3D e sugerem estratégias simples mas eficazes para a reduzir sem degradar a qualidade da geração. O nosso código está disponível em https://github.com/zlab-princeton/3d_mem.
À medida que os agentes conversacionais acumulam experiência na colaboração com utilizadores, a adaptação às preferências dos utilizadores é essencial para promover relações de longo prazo e melhorar a qualidade da colaboração ao longo do tempo. Apresentamos o MultiSessionCollab, um benchmark que avalia a capacidade dos agentes para aprender as preferências dos utilizadores e utilizá-las para melhorar a qualidade da colaboração ao longo de múltiplas sessões. Para desenvolver agentes bem-sucedidos neste contexto, propomos agentes colaborativos de longo prazo equipados com uma memória que persiste e refina as preferências do utilizador à medida que a experiência de interação se acumula. Além disso, demonstramos que sinais de aprendizagem podem ser derivados do comportamento do simulador de utilizador no MultiSessionCollab para treinar agentes a gerar reflexões mais abrangentes e atualizar a sua memória de forma mais eficaz. Experiências extensivas mostram que equipar agentes com memória melhora a colaboração de longo prazo, resultando em taxas de sucesso de tarefas mais elevadas, interações mais eficientes e redução do esforço do utilizador. Por fim, realizamos um estudo com utilizadores humanos que demonstra que a memória ajuda a melhorar a experiência do utilizador em contextos do mundo real.
Apresentamos o LEMAS-Dataset, que, até onde sabemos, é atualmente o maior corpus de fala multilíngue de código aberto com carimbos de tempo em nível de palavra. Abrangendo mais de 150.000 horas em 10 idiomas principais, o LEMAS-Dataset é construído por meio de um pipeline eficiente de processamento de dados que garante dados e anotações de alta qualidade. Para validar a eficácia do LEMAS-Dataset em diversos paradigmas generativos, treinamos dois modelos de referência com arquiteturas distintas e especializações de tarefa neste conjunto de dados. O LEMAS-TTS, baseado em uma estrutura não autorregressiva de correspondência de fluxo (flow-matching), aproveita a escala massiva e a diversidade linguística do conjunto de dados para alcançar uma síntese multilíngue robusta em modo zero-shot. Nossa proposta de treinamento adversarial de sotaque e perda por CTC (Connectionist Temporal Classification) mitiga problemas de sotaque cross-lingual, melhorando a estabilidade da síntese. De forma complementar, o LEMAS-Edit emprega uma arquitetura autorregressiva somente-decodificador que formula a edição de fala como uma tarefa de preenchimento de tokens mascarados. Ao explorar alinhamentos precisos em nível de palavra para construir máscaras de treinamento e adotar estratégias de decodificação adaptativas, ele alcança uma edição de fla无缝, com limites suaves e transições naturais. Resultados experimentais demonstram que os modelos treinados no LEMAS-Dataset oferecem síntese e desempenho de edição de alta qualidade, confirmando a qualidade do conjunto de dados. Vislumbramos que este corpus multilíngue ricamente anotado com carimbos de tempo e de granularidade fina impulsionará futuros avanços em sistemas de geração de fala baseada em prompt.
Este artigo investiga a integração do paradigma de Aprendizado Usando Informação Privilegiada (LUPI) na detecção de objetos para explorar informações descritivas de alto nível disponíveis durante o treinamento, mas não durante a inferência. Introduzimos uma metodologia geral e independente de modelo para injetar informação privilegiada - como máscaras de bounding box, mapas de saliência e pistas de profundidade - em detectores de objetos baseados em aprendizado profundo por meio de uma arquitetura professor-aluno. Experimentos são conduzidos com cinco modelos de detecção de objetos de última geração e múltiplos benchmarks públicos, incluindo conjuntos de dados de detecção de lixo baseados em UAV e o Pascal VOC 2012, para avaliar o impacto na precisão, generalização e eficiência computacional. Nossos resultados demonstram que os modelos alunos treinados com LUPI superam consistentemente suas contrapartes baselines, alcançando aumentos significativos na precisão de detecção sem aumento na complexidade de inferência ou no tamanho do modelo. As melhorias de desempenho são especialmente marcantes para objetos de tamanho médio e grande, enquanto estudos de ablação revelam que a ponderação intermediária da orientação do professor equilibra de forma ideal o aprendizado a partir de entradas privilegiadas e padrão. Os resultados confirmam que a estrutura LUPI fornece uma estratégia eficaz e prática para avançar os sistemas de detecção de objetos tanto em ambientes com restrição de recursos quanto em cenários do mundo real.
Este trabalho apresenta a VERSE, uma metodologia para analisar e melhorar Modelos de Visão e Linguagem aplicados à Compreensão de Documentos Visualmente Ricos, explorando o seu espaço de incorporação visual. A VERSE permite a visualização de representações latentes, apoiando a avaliação da viabilidade do modelo. Ela também facilita a identificação de regiões problemáticas e orienta a geração de dados sintéticos para melhorar o desempenho nesses agrupamentos. Validamos a metodologia treinando no conjunto de dados sintético MERIT e avaliando na sua contraparte do mundo real, o MERIT Secret. Os resultados mostram que a VERSE ajuda a descobrir as características visuais associadas a agrupamentos propensos a erros e que o retreinamento com amostras contendo essas características aumenta substancialmente o desempenho F1 sem degradar a generalização. Além disso, demonstramos que modelos locais, como Donut e Idefics2, quando otimizados com a VERSE, igualam ou até superam o desempenho de soluções SaaS, como GPT-4 e Pixtral.
O ajuste fino de modelos de linguagem grandes (LLMs) alinhados com segurança pode comprometer substancialmente a sua segurança. Abordagens anteriores exigem muitas amostras de segurança ou conjuntos de calibração, o que não só incorre em sobrecarga computacional significativa durante o realinhamento, mas também leva a uma degradação perceptível na utilidade do modelo. Contrariamente a esta crença, demonstramos que o alinhamento de segurança pode ser totalmente recuperado com apenas um único exemplo de segurança, sem sacrificar a utilidade e a um custo mínimo. Notavelmente, esta recuperação é eficaz independentemente do número de exemplos prejudiciais utilizados no ajuste fino ou do tamanho do modelo subjacente, e a convergência é alcançada em apenas algumas épocas. Além disso, descobrimos a estrutura de baixo posto do gradiente de segurança, o que explica por que tal correção eficiente é possível. Validamos as nossas descobertas em cinco LLMs alinhados com segurança e múltiplos conjuntos de dados, demonstrando a generalidade da nossa abordagem.