Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes modelos de linguagem (LLMs) são cada vez mais esperados para ir além de consultas factuais simples em direção a tarefas de Pesquisa Profunda que exigem a decomposição de perguntas em subproblemas, a coordenação de raciocínios de múltiplos passos e a síntese de evidências de diversas fontes. Formalizamos tarefas de Pesquisa Profunda com respostas verificáveis como Problemas de Satisfação de Restrições Hierárquicas (HCSPs), que são fundamentalmente diferentes de formulações de CSPs de restrição única, multi-hop ou planos. No entanto, benchmarks existentes (por exemplo, Natural Questions, HotpotQA) falham em capturar essa complexidade, enquanto conjuntos de dados sintéticos recentes frequentemente introduzem raciocínios de atalho, vazamento de conhecimento ou carecem de profundidade estrutural suficiente. Para abordar essa lacuna, introduzimos o InfoSeek, uma estrutura escalável para sintetizar tarefas complexas de Pesquisa Profunda. O InfoSeek utiliza um sistema de agentes duplos para construir recursivamente uma Árvore de Pesquisa a partir de páginas da web em larga escala, desfocando nós intermediários em subproblemas válidos e convertendo essas árvores em perguntas em linguagem natural que exigem a travessia de toda a hierarquia. Ele também permite uma rápida escalabilidade, gerando mais de 50 mil exemplos de treinamento, um conjunto de testes curado e trajetórias de raciocínio geradas por meio de rejeição de amostragem. Experimentos mostram que modelos treinados no InfoSeek consistentemente superam linhas de base fortes. Em um benchmark desafiador, o BrowseComp-Plus, LLMs de 3B otimizados com o InfoSeek superam modelos muito maiores de 32B e APIs comerciais leves (por exemplo, Gemini2.5-Flash), enquanto alcançam desempenho comparável a APIs mais robustas (por exemplo, Gemini2.5-Pro). Ao preservar meta-informações, como passos intermediários e rótulos de recuperação, o InfoSeek ainda suporta estratégias avançadas de otimização, incluindo design de recompensa composta e exploração em nível de trajetória. Fornecemos nossos códigos e conjuntos de dados em https://github.com/VectorSpaceLab/InfoSeek{este repositório}.
Apresentamos o Robix, um modelo unificado que integra raciocínio robótico, planejamento de tarefas e interação em linguagem natural dentro de uma única arquitetura visão-linguagem. Atuando como a camada cognitiva de alto nível em um sistema robótico hierárquico, o Robix gera dinamicamente comandos atômicos para o controlador de baixo nível e respostas verbais para interação humana, permitindo que robôs sigam instruções complexas, planejem tarefas de longo prazo e interajam naturalmente com humanos em um framework end-to-end. O Robix ainda introduz novas capacidades, como diálogo proativo, tratamento de interrupções em tempo real e raciocínio de senso comum contextualizado durante a execução de tarefas. Em sua essência, o Robix aproveita o raciocínio em cadeia de pensamento e adota uma estratégia de treinamento em três estágios: (1) pré-treinamento contínuo para aprimorar habilidades fundamentais de raciocínio incorporado, incluindo compreensão espacial 3D, fundamentação visual e raciocínio centrado em tarefas; (2) ajuste fino supervisionado para modelar a interação humano-robô e o planejamento de tarefas como uma sequência unificada de raciocínio-ação; e (3) aprendizado por reforço para melhorar a consistência raciocínio-ação e a coerência em tarefas de longo prazo. Experimentos extensivos demonstram que o Robix supera tanto baselines de código aberto quanto comerciais (por exemplo, GPT-4o e Gemini 2.5 Pro) na execução interativa de tarefas, mostrando forte generalização em diversos tipos de instruções (por exemplo, abertas, multiestágio, restritas, inválidas e interrompidas) e em várias tarefas envolvendo usuários, como organização de mesas, compras de supermercado e filtragem dietética.
O aprendizado por reforço com recompensas verificáveis (RLVR) emergiu como um paradigma predominante para tarefas de raciocínio matemático, oferecendo melhorias estáveis na capacidade de raciocínio. No entanto, os Modelos de Recompensa por Resultado (ORMs) no RLVR são muito grosseiros para distinguir raciocínios falhos dentro de respostas corretas ou raciocínios válidos dentro de respostas incorretas. Essa falta de granularidade introduz gradientes ruidosos e enganosos de forma significativa e impede avanços na qualidade do processo de raciocínio. Embora os Modelos de Recompensa por Processo (PRMs) ofereçam orientação refinada para etapas intermediárias, eles frequentemente sofrem com imprecisões e são suscetíveis a manipulação de recompensas. Para resolver esse dilema, introduzimos o Filtro de Consistência de Processo (PROF), um método eficaz de curadoria de dados que harmoniza recompensas de processo refinadas e ruidosas com recompensas de resultado grosseiras e precisas. Em vez de simplesmente combinar PRM e ORM na função objetivo (arXiv:archive/2506.18896), o PROF aproveita seus pontos fortes complementares por meio da seleção de amostras orientada por consistência. Nossa abordagem mantém respostas corretas com valores de processo médios mais altos e respostas incorretas com valores de processo médios mais baixos, preservando o equilíbrio entre amostras de treinamento positivas e negativas. Experimentos extensivos demonstram que nosso método não apenas melhora consistentemente a precisão final em mais de 4% em comparação com as abordagens de combinação, mas também fortalece a qualidade das etapas intermediárias de raciocínio. Códigos e receitas de treinamento estão disponíveis em https://github.com/Chenluye99/PROF.
Os modelos de linguagem (LMs) estão cada vez mais impulsionando aplicações do mundo real que exigem conhecimento sobre o mundo. No entanto, os processos internos pelos quais os modelos transformam dados em representações de conhecimento e crenças sobre o mundo são pouco compreendidos. Insights sobre esses processos podem abrir caminho para o desenvolvimento de LMs com representações de conhecimento mais consistentes, robustas e completas. Para facilitar o estudo dessas questões, apresentamos o LMEnt, um conjunto de ferramentas para analisar a aquisição de conhecimento em LMs durante o pré-treinamento. O LMEnt introduz: (1) um corpus de pré-treinamento rico em conhecimento, totalmente anotado com menções de entidades, baseado na Wikipedia, (2) um método de recuperação baseado em entidades sobre dados de pré-treinamento que supera abordagens anteriores em até 80,4%, e (3) 12 modelos pré-treinados com até 1 bilhão de parâmetros e 4 mil checkpoints intermediários, com desempenho comparável a modelos populares de código aberto em benchmarks de conhecimento. Juntos, esses recursos fornecem um ambiente controlado para analisar conexões entre menções de entidades no pré-treinamento e o desempenho em tarefas subsequentes, bem como os efeitos de intervenções causais nos dados de pré-treinamento. Demonstramos a utilidade do LMEnt ao estudar a aquisição de conhecimento em diferentes checkpoints, descobrindo que a frequência dos fatos é crucial, mas não explica completamente as tendências de aprendizado. Disponibilizamos o LMEnt para apoiar estudos sobre conhecimento em LMs, incluindo representações de conhecimento, plasticidade, edição, atribuição e dinâmicas de aprendizado.
A geração controlável de faces apresenta desafios críticos na modelagem generativa devido ao equilíbrio intrincado necessário entre a controlabilidade semântica e o fotorrealismo. Enquanto as abordagens existentes lutam para desacoplar controles semânticos dos pipelines de geração, revisitamos o potencial arquitetônico dos Transformadores de Difusão (DiTs) através da lente da especialização de especialistas. Este artigo introduz o Face-MoGLE, uma nova estrutura que apresenta: (1) Modelagem latente desacoplada semanticamente através da fatoração de espaço condicionada por máscaras, permitindo manipulação precisa de atributos; (2) Uma mistura de especialistas globais e locais que capturam a estrutura holística e a semântica em nível de região para uma controlabilidade refinada; (3) Uma rede de portas dinâmicas que produz coeficientes dependentes do tempo, evoluindo com os passos de difusão e localizações espaciais. O Face-MoGLE oferece uma solução poderosa e flexível para a geração de faces de alta qualidade e controlável, com forte potencial em modelagem generativa e aplicações de segurança. Experimentos extensivos demonstram sua eficácia em configurações de geração de faces multimodais e monomodais, além de sua robusta capacidade de generalização zero-shot. A página do projeto está disponível em https://github.com/XavierJiezou/Face-MoGLE.
O planejamento eficaz requer modelos de mundo robustos, mas modelos de mundo de alto nível que possam compreender e raciocinar sobre ações com abstração semântica e temporal permanecem amplamente subdesenvolvidos. Apresentamos o Vision Language World Model (VLWM), um modelo de base treinado para modelagem de mundo baseada em linguagem em vídeos naturais. Dadas observações visuais, o VLWM primeiro infere as conquistas gerais do objetivo e, em seguida, prevê uma trajetória composta por ações intercaladas e mudanças no estado do mundo. Esses alvos são extraídos por meio de Auto-Refinamento Iterativo de LLM condicionado a observações futuras compactadas representadas por uma Árvore de Legendas. O VLWM aprende tanto uma política de ação quanto um modelo de dinâmica, que, respectivamente, facilitam a decodificação reativa de planos do sistema-1 e o planejamento reflexivo do sistema-2 via minimização de custo. O custo avalia a distância semântica entre os estados futuros hipotéticos fornecidos pelas simulações do VLWM e o estado objetivo esperado, e é medido por um modelo crítico que treinamos de forma autossupervisionada. O VLWM alcança desempenho de última geração em Planejamento Visual para Assistência (VPA) tanto em avaliações de referência quanto em nossas avaliações humanas propostas no PlannerArena, onde o sistema-2 melhora a pontuação Elo em +27% em relação ao sistema-1. Os modelos VLWM também superam fortes baselines de VLM nos benchmarks RoboVQA e WorldPrediction.
A geração personalizada de múltiplos sujeitos apresenta desafios únicos na manutenção da fidelidade de identidade e coerência semântica ao sintetizar imagens condicionadas a múltiplos sujeitos de referência. Os métodos existentes frequentemente sofrem com a mistura de identidades e vazamento de atributos devido à modelagem inadequada de como diferentes sujeitos devem interagir em espaços de representação compartilhados. Apresentamos o MOSAIC, uma estrutura centrada em representação que repensa a geração de múltiplos sujeitos por meio de correspondência semântica explícita e desembaraço ortogonal de características. Nossa principal percepção é que a geração de múltiplos sujeitos requer alinhamento semântico preciso no nível da representação — saber exatamente quais regiões na imagem gerada devem atender a quais partes de cada referência. Para habilitar isso, introduzimos o SemAlign-MS, um conjunto de dados meticulosamente anotado que fornece correspondências semânticas refinadas entre múltiplos sujeitos de referência e imagens-alvo, anteriormente indisponível nesse domínio. Com base nessa fundação, propomos a perda de atenção por correspondência semântica para impor alinhamento semântico ponto a ponto preciso, garantindo alta consistência de cada referência para suas regiões designadas. Além disso, desenvolvemos a perda de desembaraço de múltiplas referências para empurrar diferentes sujeitos para subespaços de atenção ortogonais, prevenindo interferência de características enquanto preserva características individuais de identidade. Experimentos extensivos demonstram que o MOSAIC alcança desempenho de ponta em múltiplos benchmarks. Notavelmente, enquanto os métodos existentes tipicamente degradam além de 3 sujeitos, o MOSAIC mantém alta fidelidade com 4+ sujeitos de referência, abrindo novas possibilidades para aplicações complexas de síntese de múltiplos sujeitos.
A manipulação robótica moderna depende principalmente de observações visuais em um espaço de cores 2D para o aprendizado de habilidades, mas sofre com uma generalização precária. Em contraste, os humanos, que vivem em um mundo 3D, dependem mais de propriedades físicas — como distância, tamanho e forma — do que de textura ao interagir com objetos. Como essas informações geométricas 3D podem ser adquiridas por câmeras de profundidade amplamente disponíveis, parece viável dotar os robôs de capacidades perceptivas semelhantes. Nosso estudo piloto descobriu que o uso de câmeras de profundidade para manipulação é desafiador, principalmente devido à sua precisão limitada e suscetibilidade a diversos tipos de ruído. Neste trabalho, propomos os Modelos de Profundidade de Câmera (CDMs, na sigla em inglês) como um plugin simples para câmeras de profundidade de uso diário, que recebem imagens RGB e sinais brutos de profundidade como entrada e produzem uma profundidade métrica precisa e sem ruído. Para isso, desenvolvemos um mecanismo neural de geração de dados que produz dados pareados de alta qualidade a partir de simulações, modelando o padrão de ruído de uma câmera de profundidade. Nossos resultados mostram que os CDMs alcançam uma precisão quase equivalente à de simulações na previsão de profundidade, efetivamente reduzindo a lacuna entre simulação e realidade para tarefas de manipulação. Notavelmente, nossos experimentos demonstram, pela primeira vez, que uma política treinada com dados brutos de profundidade simulada, sem a necessidade de adicionar ruído ou ajustes no mundo real, generaliza-se perfeitamente para robôs reais em duas tarefas desafiadoras de longo prazo envolvendo objetos articulados, reflexivos e delgados, com pouca ou nenhuma degradação de desempenho. Esperamos que nossas descobertas inspirem pesquisas futuras sobre o uso de dados de simulação e informações 3D em políticas robóticas gerais.
Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades impressionantes de raciocínio geral. No entanto, avaliar e aprimorar sistematicamente essas capacidades de raciocínio é desafiador devido à falta de ferramentas controláveis e escaláveis para análises detalhadas. Os benchmarks e conjuntos de dados existentes frequentemente carecem do controle de variáveis necessário para análises e treinamentos multidimensionais e sistemáticos, ou possuem tipos e formatos de problemas limitados. Para abordar essas limitações, introduzimos o SATQuest, um verificador sistemático projetado para avaliar e aprimorar o raciocínio lógico em LLMs, gerando problemas diversos de raciocínio lógico baseados em Satisfatibilidade diretamente a partir de instâncias de Forma Normal Conjuntiva (CNF). O SATQuest estrutura esses problemas ao longo de três dimensões ortogonais: escala da instância, tipo de problema e formato da questão, empregando geração de problemas randomizada baseada em SAT e verificação objetiva de respostas via PySAT. Esse design mitiga problemas de memorização, permite insights detalhados sobre o desempenho do raciocínio e possibilita um ajuste fino eficaz por reforço. Nossa extensa avaliação de vários LLMs usando o SATQuest identificou limitações significativas em seu raciocínio lógico, particularmente na generalização além de formatos matemáticos familiares. Além disso, mostramos que o ajuste fino por reforço com recompensas do SATQuest melhora substancialmente o desempenho em tarefas específicas e generaliza para instâncias mais complexas, ao mesmo tempo em que destaca os desafios remanescentes na adaptação entre formatos. Por meio dessas demonstrações, evidenciamos o potencial do SATQuest como uma ferramenta fundamental e um ponto de partida valioso para o avanço do raciocínio lógico em LLMs.