Artigos de pesquisa em IA selecionados diariamente com traduções
A busca agentiva, como os sistemas de Deep Research, onde grandes modelos de linguagem navegam autonomamente na web, sintetizam informações e retornam respostas abrangentes e respaldadas por citações, representa uma grande mudança na forma como os usuários interagem com informações em escala web. Embora prometam maior eficiência e descarga cognitiva, a crescente complexidade e abertura da busca agentiva superaram os benchmarks e metodologias de avaliação existentes, que em grande parte assumem horizontes de busca curtos e respostas estáticas. Neste artigo, apresentamos o Mind2Web 2, um benchmark de 130 tarefas realistas, de alta qualidade e de longo horizonte que exigem navegação web em tempo real e extensa síntese de informações, construído com mais de 1.000 horas de trabalho humano. Para enfrentar o desafio de avaliar respostas complexas e variáveis no tempo, propomos uma nova estrutura de Agente-como-Juiz. Nosso método constrói agentes juízes específicos para cada tarefa com base em um design de rubrica estruturada em árvore para avaliar automaticamente tanto a correção da resposta quanto a atribuição de fontes. Realizamos uma avaliação abrangente de nove sistemas de busca agentiva de ponta e do desempenho humano, juntamente com uma análise detalhada de erros para extrair insights para o desenvolvimento futuro. O sistema de melhor desempenho, OpenAI Deep Research, já consegue atingir 50-70% do desempenho humano enquanto gasta metade do tempo, mostrando um grande potencial. No geral, o Mind2Web 2 fornece uma base rigorosa para o desenvolvimento e benchmarking da próxima geração de sistemas de busca agentiva.
Desenvolvemos um agente neurosimbólico de baixo custo para lidar com tarefas desafiadoras de edição de imagens em múltiplas etapas, como "Detectar o banco na imagem enquanto o recolore para rosa. Além disso, remover o gato para uma visão mais clara e recolorir a parede para amarelo." Ele combina o planejamento rápido e de alto nível de subtarefas por modelos de linguagem de grande escala (LLMs) com o uso lento, preciso, de ferramentas e busca local A^* por subtarefa para encontrar um caminho de ferramentas de baixo custo — uma sequência de chamadas para ferramentas de IA. Para economizar o custo da busca A^* em subtarefas semelhantes, realizamos raciocínio indutivo sobre caminhos de ferramentas previamente bem-sucedidos por meio de LLMs para extrair/refinar continuamente sub-rotinas frequentemente usadas e reutilizá-las como novas ferramentas para tarefas futuras em um planejamento rápido-lento adaptativo, onde as sub-rotinas de nível superior são exploradas primeiro, e apenas quando falham, a busca A^* de baixo nível é ativada. As sub-rotinas simbólicas reutilizáveis economizam consideravelmente o custo de exploração nos mesmos tipos de subtarefas aplicadas a imagens semelhantes, resultando em um agente de caminho de ferramentas rápido-lento semelhante ao humano, chamado "FaSTA^*": o planejamento rápido de subtarefas seguido pela seleção de sub-rotinas baseadas em regras por subtarefa é tentado primeiro pelos LLMs, o que deve cobrir a maioria das tarefas, enquanto a busca lenta A^* é acionada apenas para subtarefas novas e desafiadoras. Ao comparar com abordagens recentes de edição de imagens, demonstramos que o FaSTA^* é significativamente mais eficiente computacionalmente, mantendo-se competitivo com a linha de base state-of-the-art em termos de taxa de sucesso.
Apresentamos o WorldVLA, um modelo de mundo de ação autorregressivo que unifica a compreensão e geração de ações e imagens. Nosso WorldVLA integra o modelo Visão-Linguagem-Ação (VLA) e o modelo de mundo em um único framework. O modelo de mundo prevê imagens futuras ao aproveitar tanto a compreensão de ações quanto de imagens, com o objetivo de aprender a física subjacente do ambiente para melhorar a geração de ações. Enquanto isso, o modelo de ação gera as ações subsequentes com base em observações de imagens, auxiliando na compreensão visual e, por sua vez, ajudando na geração visual do modelo de mundo. Demonstramos que o WorldVLA supera modelos de ação e de mundo independentes, destacando o aprimoramento mútuo entre o modelo de mundo e o modelo de ação. Além disso, observamos que o desempenho do modelo de ação se deteriora ao gerar sequências de ações de maneira autorregressiva. Esse fenômeno pode ser atribuído à capacidade limitada de generalização do modelo para previsão de ações, levando à propagação de erros das ações anteriores para as subsequentes. Para resolver esse problema, propomos uma estratégia de máscara de atenção que seletivamente mascara ações anteriores durante a geração da ação atual, o que mostra uma melhoria significativa no desempenho na tarefa de geração de blocos de ações.
Os avanços recentes na reconstrução de cenas têm impulsionado a modelagem altamente realista de ambientes de condução autônoma (AD) usando o splatting de Gaussianas 3D. No entanto, as reconstruções resultantes permanecem fortemente vinculadas às observações originais e têm dificuldade em suportar a síntese fotorrealista de cenários de condução significativamente alterados ou novos. Este trabalho apresenta o MADrive, uma estrutura de reconstrução aumentada por memória projetada para estender as capacidades dos métodos existentes de reconstrução de cenas, substituindo veículos observados por ativos 3D visualmente semelhantes recuperados de um banco de memória externo em grande escala. Especificamente, lançamos o MAD-Cars, um conjunto de dados curado de ~70K vídeos de carros em 360° capturados em ambientes reais, e apresentamos um módulo de recuperação que encontra as instâncias de carros mais semelhantes no banco de memória, reconstrói os ativos 3D correspondentes a partir do vídeo e os integra na cena alvo por meio de alinhamento de orientação e reiluminação. As substituições resultantes fornecem representações completas de veículos na cena em múltiplas visões, permitindo a síntese fotorrealista de configurações substancialmente alteradas, conforme demonstrado em nossos experimentos. Página do projeto: https://yandex-research.github.io/madrive/
Grokking, ou seja, o desempenho em testes continua melhorando muito tempo após a convergência da perda de treinamento, foi recentemente observado no treinamento de redes neurais, tornando o mecanismo de generalização e outras capacidades emergentes, como o raciocínio, misteriosos. Enquanto estudos anteriores geralmente treinam modelos pequenos em algumas tarefas específicas ou de brinquedo por milhares de épocas, realizamos o primeiro estudo de grokking em checkpoints durante o pré-treinamento de uma única passagem de um modelo de linguagem grande (LLM) de 7B, ou seja, o OLMoE. Calculamos a perda de treinamento e avaliamos a generalização em diversas tarefas de benchmark, incluindo raciocínio matemático, geração de código e tarefas de recuperação de conhecimento de senso comum/específico de domínio. Nosso estudo, pela primeira vez, verifica que o grokking ainda ocorre no pré-treinamento de modelos de base em grande escala, embora diferentes dados possam entrar em estágios de grokking de forma assíncrona. Além disso, desmistificamos a "emergência da generalização" do grokking investigando a dinâmica interna do LLM. Especificamente, descobrimos que os caminhos das amostras de treinamento (ou seja, as escolhas de especialistas entre as camadas) evoluem de aleatórios e específicos para a instância para mais estruturados e compartilháveis entre as amostras durante o grokking. Além disso, a complexidade do caminho de uma amostra diminui apesar da perda convergida. Isso indica uma conversão de memorização para generalização, fornecendo uma explicação mecanicista da generalização tardia. No estudo, desenvolvemos duas novas métricas para quantificar a distância do caminho e a complexidade de um único caminho. Mostramos sua capacidade de prever a melhoria da generalização em diversas tarefas downstream. Elas são eficientes, simples de calcular e dependem exclusivamente dos dados de treinamento. Portanto, têm valor prático para o pré-treinamento, permitindo-nos monitorar o desempenho de generalização sem ajuste fino e teste. Teoricamente, mostramos que caminhos mais estruturados reduzem a complexidade do modelo e melhoram o limite de generalização.
A computação condicional é uma estratégia popular para tornar os Transformers mais eficientes. Os métodos existentes geralmente visam módulos individuais (por exemplo, camadas de mistura de especialistas) ou pulam camadas de forma independente. No entanto, pesquisas em interpretabilidade demonstraram que as camadas intermediárias dos Transformers exibem maior redundância e que as camadas iniciais agregam informações em posições de tokens. Guiados por essas percepções, propomos uma nova arquitetura que dinamicamente pula um número variável de camadas a partir do meio para fora. Em particular, um mecanismo de portão aprendido determina se deve ignorar um intervalo simétrico de blocos centrais com base na entrada, e um mecanismo de atenção com portão impede que tokens subsequentes atendam a posições de tokens puladas. As normas residuais são controladas com um esquema de 'sanduíche' ou 'perilayernorm', e a esparsidade do portão é regulada por uma perda de regularização adaptativa. Nosso objetivo era reduzir os requisitos de computação para tokens 'mais simples' e potencialmente promover uma hierarquia representacional emergente em múltiplos níveis, mas, nas escalas investigadas, nossa abordagem não alcança melhorias na relação entre entropia cruzada de validação e FLOPs estimados em comparação com baselines densas com menos camadas. Disponibilizamos nosso código em https://github.com/tim-lawson/skip-middle.
Apresentamos o SAM4D, um modelo de base multimodal e temporal projetado para segmentação acionável por prompts em fluxos de câmera e LiDAR. Introduzimos o Codificação de Posição Multimodal Unificada (UMPE) para alinhar características de câmera e LiDAR em um espaço 3D compartilhado, permitindo interação e acionamento cruzado de modalidades de forma contínua. Além disso, propomos a Atenção de Memória Cruzada com Consciência de Movimento (MCMA), que aproveita a compensação de ego-movimento para aprimorar a consistência temporal e a recuperação de características de longo horizonte, garantindo segmentação robusta em cenas de direção autônoma dinamicamente alteradas. Para evitar gargalos de anotação, desenvolvemos um mecanismo de dados automatizado multimodal que sinergiza máscaras de vídeo orientadas por VFM, reconstrução espaço-temporal 4D e fusão de máscaras cruzadas. Essa estrutura gera pseudo-labels alinhadas entre câmera e LiDAR a uma velocidade ordens de magnitude maior do que a anotação humana, preservando a fidelidade semântica derivada de VFM em representações de nuvem de pontos. Realizamos extensos experimentos no conjunto Waymo-4DSeg construído, que demonstram a poderosa capacidade de segmentação cruzada e o grande potencial em anotação de dados do SAM4D proposto.
Nós treinamos modelos para Prever Vídeo Egocêntrico a partir de Ações Humanas (PEVA), considerando o vídeo passado e uma ação representada pela pose corporal 3D relativa. Ao condicionar as trajetórias de pose cinemática, estruturadas pela hierarquia de articulações do corpo, nosso modelo aprende a simular como as ações físicas humanas moldam o ambiente a partir de um ponto de vista em primeira pessoa. Treinamos um transformador de difusão condicional autorregressivo no Nymeria, um conjunto de dados em larga escala de vídeo egocêntrico e captura de pose corporal do mundo real. Além disso, projetamos um protocolo de avaliação hierárquico com tarefas progressivamente mais desafiadoras, permitindo uma análise abrangente das habilidades de previsão e controle incorporadas do modelo. Nosso trabalho representa uma tentativa inicial de abordar os desafios de modelar ambientes complexos do mundo real e comportamentos de agentes incorporados com previsão de vídeo a partir da perspectiva de um ser humano.
Skinning e rigging são componentes fundamentais em animação, reconstrução de objetos articulados, transferência de movimento e geração 4D. As abordagens existentes dependem predominantemente do Linear Blend Skinning (LBS), devido à sua simplicidade e diferenciabilidade. No entanto, o LBS introduz artefatos como perda de volume e deformações não naturais, e falha em modelar materiais elásticos como tecidos moles, pelos e apêndices flexíveis (por exemplo, trombas de elefante, orelhas e tecidos adiposos). Neste trabalho, propomos o PhysRig: um framework diferenciável de skinning e rigging baseado em física que supera essas limitações ao incorporar o esqueleto rígido em uma representação volumétrica (por exemplo, uma malha tetraédrica), que é simulada como uma estrutura de corpo mole deformável impulsionada pelo esqueleto animado. Nosso método aproveita a mecânica contínua e discretiza o objeto como partículas incorporadas em uma grade de fundo Euleriana para garantir a diferenciabilidade em relação tanto às propriedades do material quanto ao movimento esquelético. Além disso, introduzimos protótipos de materiais, reduzindo significativamente o espaço de aprendizado enquanto mantemos alta expressividade. Para avaliar nosso framework, construímos um conjunto de dados sintético abrangente usando malhas do Objaverse, The Amazing Animals Zoo e MixaMo, cobrindo diversas categorias de objetos e padrões de movimento. Nosso método supera consistentemente as abordagens tradicionais baseadas em LBS, gerando resultados mais realistas e fisicamente plausíveis. Além disso, demonstramos a aplicabilidade do nosso framework na tarefa de transferência de pose, destacando sua versatilidade para a modelagem de objetos articulados.
Com a rápida proliferação de grandes modelos de linguagem (LLMs) -- cada um otimizado para diferentes pontos fortes, estilos ou perfis de latência/custo -- o roteamento tornou-se uma técnica essencial para operacionalizar o uso de diferentes modelos. No entanto, as abordagens existentes de roteamento de LLMs são limitadas de duas maneiras principais: elas avaliam o desempenho usando benchmarks que frequentemente falham em capturar as preferências humanas guiadas por critérios de avaliação subjetivos, e elas normalmente selecionam a partir de um conjunto limitado de modelos. Neste trabalho, propomos uma estrutura de roteamento alinhada a preferências que orienta a seleção de modelos ao associar consultas a domínios definidos pelo usuário (por exemplo, viagens) ou tipos de ação (por exemplo, edição de imagens) -- oferecendo um mecanismo prático para codificar preferências em decisões de roteamento. Especificamente, introduzimos o Arch-Router, um modelo compacto de 1,5B que aprende a mapear consultas para preferências de domínio-ação para decisões de roteamento de modelos. Nossa abordagem também suporta a adição contínua de novos modelos para roteamento sem a necessidade de retreinamento ou modificações arquitetônicas. Experimentos em conjuntos de dados conversacionais demonstram que nossa abordagem alcança resultados de última geração (SOTA) na correspondência de consultas com preferências humanas, superando os principais modelos proprietários. Nossa abordagem captura critérios de avaliação subjetivos e torna as decisões de roteamento mais transparentes e flexíveis. Nosso modelo está disponível em: https://huggingface.co/katanemo/Arch-Router-1.5B.
Propomos o FairyGen, um sistema automático para gerar vídeos de desenhos animados orientados por histórias a partir de um único desenho infantil, preservando fielmente seu estilo artístico único. Diferente de métodos anteriores de narrativa que focam principalmente na consistência de personagens e movimentos básicos, o FairyGen explicitamente separa a modelagem de personagens da geração de cenários estilizados e incorpora o design de cenas cinematográficas para apoiar uma narrativa expressiva e coerente. Dado um único esboço de personagem, empregamos primeiro um MLLM para gerar um storyboard estruturado com descrições em nível de cena que especificam configurações de ambiente, ações do personagem e perspectivas da câmera. Para garantir consistência visual, introduzimos um adaptador de propagação de estilo que captura o estilo visual do personagem e o aplica ao fundo, mantendo fielmente a identidade visual completa do personagem enquanto sintetiza cenas consistentes em estilo. Um módulo de design de cena aprimora ainda mais a diversidade visual e a qualidade cinematográfica através de recortes de quadro e síntese de múltiplas perspectivas baseada no storyboard. Para animar a história, reconstruímos um proxy 3D do personagem para derivar sequências de movimento fisicamente plausíveis, que são então usadas para ajustar um modelo de difusão de imagem para vídeo baseado em MMDiT. Propomos ainda um adaptador de personalização de movimento em dois estágios: o primeiro estágio aprende características de aparência a partir de quadros temporalmente desordenados, separando identidade de movimento; o segundo estágio modela a dinâmica temporal usando uma estratégia de deslocamento de timestep com pesos de identidade congelados. Uma vez treinado, o FairyGen renderiza diretamente cenas de vídeo diversas e coerentes alinhadas com o storyboard. Experimentos extensivos demonstram que nosso sistema produz animações que são estilisticamente fiéis, com movimento natural estruturado narrativamente, destacando seu potencial para animação de histórias personalizadas e envolventes. O código estará disponível em https://github.com/GVCLab/FairyGen.
As doenças raras afetam coletivamente mais de 300 milhões de indivíduos em todo o mundo, mas o diagnóstico oportuno e preciso continua sendo um desafio persistente. Isso se deve em grande parte à sua heterogeneidade clínica, à baixa prevalência individual e ao conhecimento limitado que a maioria dos clínicos tem sobre essas condições. Aqui, apresentamos o DeepRare, o primeiro sistema agente de diagnóstico de doenças raras impulsionado por um modelo de linguagem de grande escala (LLM), capaz de processar entradas clínicas heterogêneas. O sistema gera hipóteses diagnósticas classificadas para doenças raras, cada uma acompanhada por uma cadeia de raciocínio transparente que vincula etapas analíticas intermediárias a evidências médicas verificáveis. O DeepRare é composto por três componentes principais: um host central com um módulo de memória de longo prazo; servidores de agentes especializados responsáveis por tarefas analíticas específicas de domínio, integrando mais de 40 ferramentas especializadas e fontes de conhecimento médico em escala da web e atualizadas, garantindo acesso às informações clínicas mais recentes. Esse design modular e escalável permite raciocínio diagnóstico complexo, mantendo rastreabilidade e adaptabilidade. Avaliamos o DeepRare em oito conjuntos de dados. O sistema demonstra desempenho diagnóstico excepcional entre 2.919 doenças, alcançando 100% de precisão para 1.013 doenças. Em avaliações baseadas em HPO, o DeepRare supera significativamente outros 15 métodos, como ferramentas de diagnóstico bioinformático tradicionais, LLMs e outros sistemas agentes, alcançando uma pontuação média Recall@1 de 57,18% e superando o segundo melhor método (Reasoning LLM) por uma margem substancial de 23,79 pontos percentuais. Para cenários de entrada multimodal, o DeepRare alcança 70,60% no Recall@1 em comparação com 53,20% do Exomiser em 109 casos. A verificação manual das cadeias de raciocínio por especialistas clínicos alcança 95,40% de concordância. Além disso, o sistema DeepRare foi implementado como um aplicativo web amigável em http://raredx.cn/doctor.
Descrevemos o Generative Blocks World para interagir com a cena de uma imagem gerada manipulando abstrações geométricas simples. Nosso método representa cenas como montagens de primitivos 3D convexos, e a mesma cena pode ser representada por diferentes números de primitivos, permitindo que um editor mova estruturas inteiras ou pequenos detalhes. Uma vez que a geometria da cena é editada, a imagem é gerada por um método baseado em fluxo que é condicionado à profundidade e a uma dica de textura. Nossa dica de textura leva em consideração os primitivos 3D modificados, superando a consistência de textura fornecida por técnicas existentes de cache de chave-valor. Essas dicas de textura (a) permitem movimentos precisos de objetos e da câmera e (b) preservam amplamente a identidade dos objetos retratados. Experimentos quantitativos e qualitativos demonstram que nossa abordagem supera trabalhos anteriores em fidelidade visual, editabilidade e generalização composicional.
O treinamento distribuído de modelos de base, particularmente grandes modelos de linguagem (LLMs), exige um alto nível de comunicação. Consequentemente, ele é altamente dependente de um cluster centralizado com interconexões rápidas e confiáveis. Podemos realizar o treinamento em redes lentas e, assim, liberar o poder de clusters descentralizados ao lidar com modelos que excedem 100 bilhões de parâmetros? Neste artigo, propomos o DiLoCoX, uma estrutura de treinamento descentralizada em larga escala com baixa comunicação. Ele combina Paralelismo de Pipeline com Política de Duplo Otimizador, Sobreposição de Comunicação e Treinamento Local com Atraso de Um Passo, e um Esquema de Compressão Adaptativa de Gradientes. Essa combinação melhora significativamente a escala de parâmetros e a velocidade de pré-treinamento do modelo. Justificamos os benefícios da sobreposição de comunicação e treinamento local com atraso de um passo, bem como do esquema de compressão adaptativa de gradientes, por meio de uma análise teórica de convergência. Empiricamente, demonstramos que o DiLoCoX é capaz de pré-treinar um modelo de base de 107B em uma rede de 1Gbps. Em comparação com o AllReduce convencional, o DiLoCoX pode alcançar uma aceleração de 357x no treinamento distribuído, mantendo uma degradação insignificante na convergência do modelo. Até onde sabemos, esta é a primeira estrutura de treinamento descentralizada aplicada com sucesso a modelos com mais de 100 bilhões de parâmetros.
Propomos o MuseControlLite, um mecanismo leve projetado para ajustar finamente modelos de geração de texto para música, permitindo condicionamento preciso usando diversos atributos musicais variáveis no tempo e sinais de áudio de referência. A descoberta principal é que os embeddings posicionais, raramente utilizados por modelos de geração de texto para música no condicionador para condições de texto, são cruciais quando a condição de interesse é uma função do tempo. Usando o controle de melodia como exemplo, nossos experimentos mostram que simplesmente adicionar embeddings posicionais rotativos às camadas de atenção cruzada desacopladas aumenta a precisão do controle de 56,6% para 61,1%, enquanto requer 6,75 vezes menos parâmetros treináveis do que os mecanismos de ajuste fino state-of-the-art, utilizando o mesmo modelo de Transformer de difusão pré-treinado do Stable Audio Open. Avaliamos várias formas de controle de atributos musicais, preenchimento de áudio e extensão de áudio, demonstrando uma melhoria na controlabilidade em relação ao MusicGen-Large e ao Stable Audio Open ControlNet a um custo de ajuste fino significativamente menor, com apenas 85M parâmetros treináveis. O código-fonte, checkpoints do modelo e exemplos de demonstração estão disponíveis em: https://musecontrollite.github.io/web/.
Neste artigo, propomos o DuaShepherd, uma nova estrutura de modelagem de recompensa que integra dois sinais de recompensa complementares, correção e potencial, para aprimorar as capacidades de raciocínio matemático de Modelos de Linguagem de Grande Escala (LLMs). Enquanto os sinais baseados em correção enfatizam a identificação de erros passo a passo, os sinais baseados em potencial focam na probabilidade de alcançar a resposta final correta. Desenvolvemos um pipeline automatizado para a construção de um conjunto de dados em larga escala para modelagem de recompensa com ambos os sinais. Uma arquitetura unificada de múltiplas cabeças foi explorada para treinar os dois modelos de recompensa em uma configuração de multitarefa, demonstrando benefícios ao aprender correção e potencial em paralelo. Ao combinar esses dois sinais em uma probabilidade composta, nosso modelo alcança melhorias consistentes de desempenho em vários benchmarks. Avaliações empíricas no MATH500 e no ProcessBench confirmam que essa recompensa combinada supera significativamente os modelos treinados com apenas um tipo de recompensa, alcançando desempenho de ponta sob restrições de recursos comparáveis.
Algoritmos heurísticos desempenham um papel vital na resolução de problemas de otimização combinatória (CO), mas os projetos tradicionais dependem fortemente de expertise manual e lutam para generalizar em diversas instâncias. Apresentamos o HeurAgenix, um framework de hiper-heurística de dois estágios impulsionado por modelos de linguagem de grande escala (LLMs) que primeiro evolui heurísticas e depois seleciona entre elas automaticamente. Na fase de evolução heurística, o HeurAgenix utiliza um LLM para comparar soluções heurísticas iniciais com soluções de maior qualidade e extrair estratégias de evolução reutilizáveis. Durante a resolução de problemas, ele seleciona dinamicamente a heurística mais promissora para cada estado do problema, guiado pela capacidade de percepção do LLM. Para flexibilidade, esse seletor pode ser um LLM de última geração ou um modelo leve ajustado com menor custo de inferência. Para mitigar a escassez de supervisão confiável causada pela complexidade do CO, ajustamos o seletor heurístico leve com um mecanismo de recompensa dupla que explora conjuntamente sinais de preferências de seleção e percepção de estado, permitindo uma seleção robusta sob anotações ruidosas. Experimentos extensivos em benchmarks canônicos mostram que o HeurAgenix não apenas supera as hiper-heurísticas baseadas em LLM existentes, mas também iguala ou excede solucionadores especializados. O código está disponível em https://github.com/microsoft/HeurAgenix.