Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar dos avanços na IA científica, ainda falta um quadro coerente para a Inteligência Geral Científica (SGI) - a capacidade de conceber, investigar e raciocinar de forma autónoma em diversos domínios científicos. Apresentamos uma definição operacional de SGI baseada no Modelo de Inquérito Prático (PIM: Deliberação, Conceção, Ação, Perceção) e operacionalizamo-la através de quatro tarefas alinhadas com a atividade científica: investigação aprofundada, geração de ideias, experimentação seca/húmida e raciocínio experimental. O SGI-Bench compreende mais de 1.000 amostras interdisciplinares curadas por especialistas, inspiradas nas 125 Grandes Questões da Ciência, permitindo a avaliação sistemática dos mais avançados Modelos de Linguagem de Grande Escala (LLMs). Os resultados revelam lacunas: correspondência exata baixa (10-20%) na investigação aprofundada, apesar do alinhamento a nível de etapas; ideias com falta de exequibilidade e detalhe; alta capacidade de execução de código, mas baixa precisão dos resultados de execução em experimentação seca; baixa fidelidade de sequência em protocolos húmidos; e desafios persistentes no raciocínio comparativo multimodal. Introduzimos ainda o Aprendizado por Reforço no Momento do Teste (TTRL), que otimiza recompensas de novidade aumentadas por recuperação de informação durante a inferência, melhorando a novidade das hipóteses sem necessidade de respostas de referência. Em conjunto, a nossa definição baseada no PIM, o benchmark centrado em fluxos de trabalho e as perspetivas empíricas estabelecem uma base para sistemas de IA que participem genuinamente na descoberta científica.
A generalização robótica depende da inteligência física: a capacidade de raciocinar sobre mudanças de estado, interações ricas em contato e planejamento de longo prazo sob percepção e ação egocêntricas. No entanto, a maioria dos VLMs é treinada principalmente com dados em terceira pessoa, criando uma incompatibilidade fundamental de perspectiva para robôs humanoides. Escalar a coleta de dados egocêntricos robóticos permanece impraticável devido ao alto custo e diversidade limitada, enquanto vídeos egocêntricos humanos em larga escala oferecem uma alternativa escalável que captura naturalmente contexto rico de interação e estrutura causal. O principal desafio é converter vídeos egocêntricos brutos em supervisão de treinamento de embodimento estruturada e confiável. Consequentemente, propomos um pipeline de tradução Egocêntrico2Embodimento que transforma vídeos em primeira pessoa em supervisão de VQA multinível e orientada por esquemas, com fundamentação de evidências e consistência temporal aplicadas, permitindo a construção do conjunto de dados Egocêntrico2Embodimento (E2E-3M) em escala. Um cérebo embodido com consciência egocêntrica, denominado PhysBrain, é obtido através do treinamento no conjunto de dados E2E-3M. O PhysBrain exibe uma compreensão egocêntrica substancialmente melhorada, particularmente para planejamento no EgoThink. Ele fornece uma inicialização com consciência egocêntrica que permite um ajuste fino de VLA mais eficiente em amostras e taxas de sucesso mais altas no SimplerEnv (53,9%), demonstrando uma transferência eficaz da supervisão egocêntrica humana para o controle robótico downstream.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) lutam para manter um desempenho confiável sob degradações visuais extremas do mundo real, o que prejudica sua robustez prática. Os MLLMs robustos existentes dependem predominantemente de treinamento/adaptação implícita que se concentra apenas na generalização do codificador visual, sofrendo com interpretabilidade limitada e otimização isolada. Para superar essas limitações, propomos o Robust-R1, uma nova estrutura que modela explicitamente as degradações visuais por meio de cadeias de raciocínio estruturadas. Nossa abordagem integra: (i) ajuste fino supervisionado para fundamentos de raciocínio conscientes da degradação, (ii) alinhamento orientado por recompensa para perceber com precisão os parâmetros de degradação, e (iii) dimensionamento dinâmico da profundidade do raciocínio adaptado à intensidade da degradação. Para facilitar esta abordagem, introduzimos um conjunto de dados especializado de 11K caracterizado por degradações realistas sintetizadas em quatro estágios críticos de processamento visual do mundo real, cada um anotado com cadeias estruturadas conectando parâmetros de degradação, influência perceptual, cadeia de raciocínio semântico original e conclusão. Avaliações abrangentes demonstram robustez state-of-the-art: o Robust-R1 supera todas as linhas de base gerais e robustas no benchmark de degradação do mundo real R-Bench, mantendo simultaneamente um desempenho anti-degradação superior sob degradações adversárias de múltiplas intensidades no MMMB, MMStar e RealWorldQA.
Apesar do desempenho superior dos Grandes Modelos de Raciocínio (LRMs), seus comportamentos de raciocínio são frequentemente contra-intuitivos, levando a capacidades de raciocínio subótimas. Para formalizar teoricamente os comportamentos de raciocínio desejados, este artigo apresenta as Leis do Raciocínio (LoRe), uma estrutura unificada que caracteriza os padrões intrínsecos de raciocínio em LRMs. Primeiro, propomos a *lei de computação* com a hipótese de que o custo computacional do raciocínio deve escalar linearmente com a complexidade da questão. Além da computação, estendemos a LoRe com uma *lei de precisão* suplementar. Como a complexidade da questão é difícil de quantificar na prática, examinamos essas hipóteses por meio de duas propriedades das leis: monotonicidade e composicionalidade. Para isso, introduzimos o *LoRe-Bench*, um benchmark que mede sistematicamente essas duas propriedades tratáveis para grandes modelos de raciocínio. A avaliação mostra que a maioria dos modelos de raciocínio exibe monotonicidade razoável, mas carece de composicionalidade. Em resposta, desenvolvemos uma abordagem eficaz de ajuste fino (*finetuning*) que impõe a composicionalidade da lei de computação. Estudos empíricos extensivos demonstram que uma melhor conformidade com as leis de computação produz uma melhoria consistente no desempenho do raciocínio em vários benchmarks e revela efeitos sinérgicos entre propriedades e leis. Página do projeto: https://lore-project.github.io/
Os modelos de linguagem de grande escala (LLMs) recentemente alcançaram progressos significativos na geração de provas matemáticas rigorosas. Em contraste, a utilização de LLMs para demonstração de teoremas em linguagens formais (como Lean) permanece desafiadora e computacionalmente dispendiosa, particularmente ao abordar problemas de nível universitário e além. Neste trabalho, apresentamos o Seed-Prover 1.5, um modelo de demonstração de teoremas formais treinado via aprendizado por reforço agentivo em larga escala, juntamente com um fluxo de trabalho eficiente de escalonamento em tempo de teste (TTS). Através de interações extensivas com Lean e outras ferramentas, o modelo acumula experiência continuamente durante o processo de RL, aprimorando substancialmente a capacidade e eficiência da demonstração formal de teoremas. Adicionalmente, aproveitando os avanços recentes na prova em linguagem natural, nosso fluxo de trabalho TTS preenche eficientemente a lacuna entre linguagens naturais e formais. Comparado aos métodos state-of-the-art, o Seed-Prover 1.5 alcança desempenho superior com um orçamento computacional menor. Ele resolve 88% do PutnamBench (nível universitário), 80% do Fate-H (nível de pós-graduação) e 33% do Fate-X (nível de doutorado). Notavelmente, usando nosso sistema, resolvemos 11 dos 12 problemas do Putnam 2025 em 9 horas. Nossos achados sugerem que escalonar o aprendizado a partir da experiência, impulsionado por feedback formal de alta qualidade, detém imenso potencial para o futuro do raciocínio matemático formal.
Apesar dos avanços nos MLLMs (Modelos de Linguagem Multimodais), a sua capacidade de raciocinar sobre estruturas 3D e dinâmicas temporais permanece limitada, restringida por uma fraca perceção 4D e compreensão temporal. Os *benchmarks* existentes de Questionamento e Resposta em Vídeo (VQA) 3D e 4D também enfatizam cenas estáticas e carecem de *prompting* a nível regional. Nós abordamos estas questões através da introdução de: (a) 4D-RGPT, um MLLM especializado concebido para captar representações 4D a partir de entradas de vídeo com perceção temporal melhorada; (b) Perceptual 4D Distillation (P4D), um *framework* de treino que transfere representações 4D de um modelo especialista congelado para o 4D-RGPT, permitindo uma perceção 4D abrangente; e (c) R4D-Bench, um *benchmark* para cenas dinâmicas com consciência da profundidade e com *prompting* a nível regional, construído através de um *pipeline* híbrido automatizado e verificado por humanos. O nosso modelo 4D-RGPT alcança melhorias notáveis tanto nos *benchmarks* existentes de VQA 4D como no *benchmark* R4D-Bench proposto.
Os Modelos de Difusão Latente (LDMs) modernos geralmente operam em espaços latentes de Autoencoders Variacionais (VAEs) de baixo nível, otimizados principalmente para reconstrução a nível de pixel. Para unificar a geração e compreensão visual, uma tendência emergente é adotar características de alta dimensão de codificadores de representação como latentes gerativos. No entanto, identificamos empiricamente dois obstáculos fundamentais neste paradigma: (1) o espaço de características discriminativo carece de regularização compacta, tornando os modelos de difusão propensos a latentes fora da variedade que levam a estruturas de objetos imprecisas; e (2) a reconstrução a nível de pixel intrinsecamente fraca do codificador impede o gerador de aprender geometria e textura de granularidade fina precisas. Neste artigo, propomos um framework sistemático para adaptar características de codificadores orientados à compreensão para tarefas generativas. Introduzimos um objetivo de reconstrução semântica-pixel para regularizar o espaço latente, permitindo a compressão de informações semânticas e detalhes de granularidade fina em uma representação altamente compacta (96 canais com subamostragem espacial de 16x16). Este projeto garante que o espaço latente permaneça semanticamente rico e alcance reconstrução de imagem state-of-the-art, mantendo-se compacto o suficiente para geração precisa. Aproveitando esta representação, projetamos um modelo unificado de Texto para Imagem (T2I) e edição de imagem. Comparando com vários espaços de características, demonstramos que nossa abordagem alcança reconstrução state-of-the-art, convergência mais rápida e ganhos substanciais de desempenho em tarefas T2I e de edição, validando que codificadores de representação podem ser efetivamente adaptados em componentes generativos robustos.
O LLM-como-Juiz tem sido amplamente adotado como método de avaliação e servido como recompensa supervisionada no treinamento de modelos. No entanto, os benchmarks existentes para LLM-como-Juiz dependem principalmente de verdades fundamentais anotadas por humanos, o que introduz viés humano que compromete a avaliação da confiabilidade e impõe limitações de escalabilidade. Para superar essas limitações, introduzimos o Sage, um novo conjunto de avaliação que analisa a qualidade dos juízes de LLM sem necessitar de qualquer anotação humana. Inspirado pelos axiomas da teoria da escolha racional, o Sage introduz duas novas lentes para medir o LLM-como-Juiz: autoconsistência local (estabilidade de preferência par a par) e consistência lógica global (transitividade através de um conjunto completo de preferências). Curadamos um conjunto de dados de 650 questões combinando problemas de benchmark estruturados com consultas de usuários do mundo real. Nossos experimentos demonstram tanto a estabilidade de nossas métricas quanto sua alta correlação com benchmarks supervisionados como LLMBar e RewardBench2, confirmando a confiabilidade do Sage como um conjunto de avaliação para a robustez e precisão do LLM-como-Juiz. Com base no Sage, revelamos que os LLMs state-of-the-art atuais exibem problemas significativos de confiabilidade ao atuarem como juízes em configurações de pontuação e comparação pareada; mesmo os modelos de melhor desempenho, Gemini-2.5-Pro e GPT-5, falham em manter preferências consistentes em quase um quarto dos casos difíceis. Atribuímos isso a um novo fenômeno chamado preferência situacional, que explica por que rubricas ou critérios explícitos podem ajudar o modelo a julgar consistentemente entre pares de respostas. Nossa análise adicional mostra que o LLM-como-Juiz com ajuste fino é um método viável para melhorar o desempenho, e que o juiz baseado em painel, bem como o raciocínio profundo, podem melhorar a consistência do julgamento. Também encontramos inconsistência substancial nos julgamentos humanos, o que indica que a anotação humana pode não ser um padrão ouro confiável.
Compreender as diferenças arquiteturais em modelos de linguagem é um desafio, especialmente no pré-treinamento em escala acadêmica (por exemplo, 1,3B de parâmetros, 100B de tokens), onde os resultados são frequentemente dominados por ruído e aleatoriedade. Para superar isso, introduzimos tarefas sintéticas controladas de pré-treinamento que isolam e avaliam as capacidades centrais do modelo. Dentro deste quadro, descobrimos as **CANON LAYERS** (Camadas Cânone): componentes arquiteturais leves — nomeados em referência ao termo musical "cânone" — que promovem o fluxo horizontal de informação entre tokens vizinhos. As camadas cânone calculam somas ponderadas das representações de tokens próximos e integram-se perfeitamente em Transformers, atenção linear, modelos de espaço de estados ou qualquer arquitetura sequencial. Apresentamos 12 resultados-chave. Isso inclui como as camadas cânone aprimoram a profundidade do raciocínio (por exemplo, em 2x), a amplitude do raciocínio, a manipulação de conhecimento, etc. Elas elevam arquiteturas fracas, como NoPE, para equiparar-se ao RoPE, e a atenção linear para rivalizar com modelos lineares de última geração, como Mamba2/GDN — validação realizada tanto por meio de tarefas sintéticas quanto de pré-treinamento real em escala acadêmica. Este ambiente sintético oferece um caminho econômico e fundamentado para isolar capacidades centrais do modelo, frequentemente obscurecidas em escalas acadêmicas. Equipado com dados infinitos e de alta qualidade, ele pode até mesmo **PREVER** como futuras arquiteturas se comportarão à medida que os *pipelines* de treinamento melhorarem — por exemplo, por meio de melhor curadoria de dados ou pós-treinamento baseado em RL — desbloqueando raciocínio mais profundo e inferência hierárquica.
Os modelos Visão-Linguagem-Ação (VLA) estão a impulsionar uma revolução na robótica, permitindo que as máquinas compreendam instruções e interajam com o mundo físico. Esta área está a explodir com novos modelos e conjuntos de dados, tornando-se simultaneamente emocionante e desafiador acompanhar o seu ritmo. Esta pesquisa oferece um guia claro e estruturado para o panorama dos VLA. Concebemo-lo para seguir o percurso de aprendizagem natural de um investigador: começamos com os Módulos básicos de qualquer modelo VLA, percorremos a história através dos Marcos-chave e, em seguida, aprofundamo-nos nos principais Desafios que definem a fronteira recente da investigação. A nossa principal contribuição é uma análise detalhada dos cinco maiores desafios em: (1) Representação, (2) Execução, (3) Generalização, (4) Segurança e (5) Conjuntos de Dados e Avaliação. Esta estrutura espelha o roteiro de desenvolvimento de um agente generalista: estabelecer o ciclo fundamental de perceção-ação, dimensionar capacidades através de diversas incorporações e ambientes e, finalmente, garantir uma implantação confiável — tudo suportado pela infraestrutura de dados essencial. Para cada um deles, analisamos as abordagens existentes e destacamos oportunidades futuras. Posicionamos este artigo tanto como um guia fundamental para recém-chegados como um roteiro estratégico para investigadores experientes, com o duplo objetivo de acelerar a aprendizagem e inspirar novas ideias em inteligência incorporada. Uma versão dinâmica desta pesquisa, com atualizações contínuas, é mantida na nossa {página do projeto} https://suyuz1.github.io/Survery/.
A fundamentação visual, que localiza objetos a partir de descrições em linguagem natural, representa uma ponte crítica entre a compreensão da linguagem e da visão. Embora os modelos de linguagem grandes multimodais (MLLMs) atinjam pontuações impressionantes em benchmarks existentes, uma questão fundamental permanece: os MLLMs podem verdadeiramente fundamentar a linguagem na visão com a sofisticação similar à humana, ou estão apenas a fazer correspondência de padrões em conjuntos de dados simplificados? Os benchmarks atuais não capturam a complexidade do mundo real, onde os humanos navegam sem esforço referências ambíguas e reconhecem quando a fundamentação é impossível. Para avaliar rigorosamente as verdadeiras capacidades dos MLLMs, introduzimos o GroundingME, um benchmark que desafia sistematicamente os modelos em quatro dimensões críticas: (1) Discriminativa, distinguindo objetos altamente similares, (2) Espacial, compreendendo descrições relacionais complexas, (3) Limitada, lidando com oclusões ou objetos minúsculos, e (4) Rejeição, reconhecendo consultas impossíveis de fundamentar. Através de uma curadoria cuidadosa que combina geração automatizada com verificação humana, criamos 1.005 exemplos desafiadores que espelham a complexidade do mundo real. A avaliação de 25 MLLMs state-of-the-art revela uma lacuna profunda de capacidade: o melhor modelo atinge apenas 45,1% de precisão, enquanto a maioria pontua 0% em tarefas de rejeição, alucinando objetos reflexivamente em vez de reconhecer a sua ausência, levantando preocupações críticas de segurança para a implantação. Exploramos duas estratégias de melhoria: (1) a escala no momento do teste seleciona a resposta ótima através da trajetória de pensamento para melhorar a fundamentação complexa em até 2,9%, e (2) o treino com mistura de dados ensina os modelos a reconhecer consultas impossíveis de fundamentar, aumentando a precisão de rejeição de 0% para 27,9%. O GroundingME serve, assim, tanto como uma ferramenta de diagnóstico que revela as limitações atuais dos MLLMs como um roteiro para a fundamentação visual de nível humano.
Apresentamos o RadarGen, um modelo de difusão para síntese de nuvens de pontos radar automotivas realistas a partir de imagens de câmera multi-visão. O RadarGen adapta a difusão eficiente em latentes de imagem para o domínio radar representando as medições radar em formato de visão de cima (bird's-eye-view) que codifica a estrutura espacial juntamente com atributos de seção transversal radar (RCS) e Doppler. Uma etapa leve de recuperação reconstrói as nuvens de pontos a partir dos mapas gerados. Para melhor alinhar a geração com a cena visual, o RadarGen incorpora pistas de profundidade, semântica e movimento alinhadas em BEV, extraídas de modelos de base pré-treinados, que guiam o processo estocástico de geração em direção a padrões radar fisicamente plausíveis. O condicionamento por imagens torna a abordagem amplamente compatível, em princípio, com conjuntos de dados visuais existentes e frameworks de simulação, oferecendo uma direção escalável para simulação generativa multimodal. Avaliações em dados de condução em larga escala mostram que o RadarGen captura distribuições características de medições radar e reduz a lacuna para modelos de percepção treinados com dados reais, marcando um passo em direção a uma simulação generativa unificada entre modalidades de sensoriamento.
Apresentamos o Bolmo, a primeira família de modelos de linguagem (ML) competitivos e totalmente abertos em nível de byte nas escalas de 1B e 7B de parâmetros. Em contraste com pesquisas anteriores sobre MLs em nível de byte, que se concentram predominantemente no treinamento a partir do zero, treinamos o Bolmo por meio da "byteificação" de MLs existentes em nível de subpalavra. A byteificação permite superar as limitações da tokenização por subpalavras - como compreensão insuficiente de caracteres e restrições de eficiência devido ao vocabulário fixo de subpalavras - enquanto apresenta desempenho equivalente ao dos principais MLs em nível de subpalavra. O Bolmo foi especificamente projetado para a byteificação: nossa arquitetura resolve uma incompatibilidade entre a expressividade de arquiteturas anteriores em nível de byte e os MLs em nível de subpalavra, o que possibilita empregar um objetivo de destilação exata eficaz entre o Bolmo e o modelo de subpalavra de origem. Isso permite converter um ML em nível de subpalavra para um ML em nível de byte investindo menos de 1% do orçamento típico de tokens de pré-treinamento. O Bolmo supera substancialmente todos os MLs anteriores em nível de byte de tamanho comparável e supera os MLs de subpalavra de origem na compreensão de caracteres e, em alguns casos, em codificação, ao mesmo tempo que se aproxima do desempenho dos MLs originais em outras tarefas. Além disso, mostramos que o Bolmo pode alcançar velocidades de inferência competitivas com os MLs em nível de subpalavra ao ser treinado com maiores taxas de compressão de tokens, e pode ser pós-treinado de forma barata e eficaz aproveitando o ecossistema existente em torno do ML de subpalavra de origem. Nossos resultados tornam finalmente os MLs em nível de byte uma escolha prática e competitiva com os MLs em nível de subpalavra em um amplo conjunto de casos de uso.
Os Modelos de Linguagem de Grande Porte para Vídeo (Video-LLMs) estão a melhorar rapidamente, no entanto, as referências atuais de Resposta a Perguntas sobre Vídeo (VideoQA) frequentemente permitem que as perguntas sejam respondidas a partir de uma única pista saliente, subavaliando o raciocínio que deve agregar múltiplas evidências visuais separadas temporalmente. Apresentamos o HERBench, uma referência de VideoQA construída com o propósito específico de avaliar a integração de múltiplas evidências ao longo do tempo. Cada pergunta requer a agregação de pelo menos três pistas de evidência não sobrepostas em segmentos de vídeo distintos, de modo que nem os pré-conhecimentos linguísticos nem um único *snapshot* são suficientes. O HERBench compreende 26 mil perguntas de múltipla escolha com cinco opções, organizadas em doze tarefas composicionais que investigam a vinculação de identidades, relações entre entidades, ordenação temporal, verificação de co-ocorrência e contagem. Para tornar a exigência de evidência mensurável, introduzimos o Conjunto Mínimo de *Frames* Necessários (MRFS), o menor número de *frames* que um modelo deve fundir para responder corretamente, e mostramos que o HERBench impõe uma exigência substancialmente maior do que os conjuntos de dados anteriores (MRFS médio de 5,5 contra 2,6-4,2). A avaliação de 13 Video-LLMs de última geração no HERBench revela falhas generalizadas: as precisões de 31-42% estão apenas ligeiramente acima da linha de base de 20% de respostas aleatórias. Desagregamos esta falha em dois estrangulamentos críticos: (1) um défice de recuperação, onde os seletores de *frames* ignoram evidências-chave, e (2) um défice de fusão, onde os modelos falham em integrar informação mesmo quando toda a evidência necessária é fornecida. Ao tornar a evidência transversal no tempo simultaneamente inevitável e quantificável, o HERBench estabelece um alvo fundamentado para o avanço da compreensão de vídeo robusta e composicional.
Os recentes avanços na geração de cenas 3D produzem resultados visualmente atrativos, mas as representações atuais dificultam os fluxos de trabalho de artistas que exigem cenas de malhas texturizadas 3D modificáveis para efeitos visuais e desenvolvimento de jogos. Apesar dos progressos significativos, os métodos atuais de reconstrução de cenas com malhas texturizadas estão longe de estar prontos para uso artístico, sofrendo com decomposição incorreta de objetos, relações espaciais imprecisas e ausência de planos de fundo. Apresentamos o 3D-RE-GEN, uma estrutura composicional que reconstrói uma única imagem em objetos 3D texturizados e um plano de fundo. Demonstramos que combinar modelos state of the art de domínios específicos alcança um desempenho state of the art na reconstrução de cenas, atendendo aos requisitos dos artistas. Nossa pipeline de reconstrução integra modelos para detecção, reconstrução e posicionamento de assets, levando certos modelos para além dos seus domínios originalmente pretendidos. A obtenção de objetos ocluídos é tratada como uma tarefa de edição de imagem com modelos generativos para inferir e reconstruir com raciocínio em nível de cena sob iluminação e geometria consistentes. Diferente dos métodos atuais, o 3D-RE-GEN gera um plano de fundo abrangente que restringe espacialmente os objetos durante a otimização e fornece uma base para tarefas realistas de iluminação e simulação em efeitos visuais e jogos. Para obter layouts fisicamente realistas, empregamos uma nova otimização diferenciável de 4-DoF que alinha os objetos reconstruídos com o plano do solo estimado. O 3D-RE-GEN alcança desempenho state of the art na reconstrução de cenas 3D a partir de imagem única, produzindo cenas coerentes e modificáveis por meio de geração composicional guiada por recuperação precisa de câmera e otimização espacial.
O aprendizado por reforço (RL) permitiu o treinamento de agentes baseados em grandes modelos de linguagem (LLMs) para interagir com o ambiente e resolver tarefas complexas e de longo prazo com múltiplos turnos. No entanto, os agentes treinados com RL frequentemente apresentam dificuldades em tarefas que exigem exploração ativa e falham em se adaptar eficientemente a partir de experiências de tentativa e erro. Neste artigo, apresentamos o LaMer, uma estrutura geral de Meta-RL que permite aos agentes de LLM explorar ativamente e aprender com o feedback do ambiente durante o teste. O LaMer consiste em dois componentes principais: (i) uma estrutura de treinamento cross-episódica para incentivar a exploração e a otimização de recompensas de longo prazo; e (ii) uma adaptação de política *in-context* por meio de reflexão, permitindo que o agente adapte sua política a partir do sinal de feedback da tarefa sem atualização por gradiente. Experimentos em diversos ambientes mostram que o LaMelhor melhora significativamente o desempenho em relação às linhas de base de RL, com ganhos de desempenho de 11%, 14% e 19% em Sokoban, Campo Minado e Webshop, respectivamente. Além disso, o LaMer também demonstra melhor generalização para tarefas mais desafiadoras ou previamente não vistas em comparação com os agentes treinados com RL. No geral, nossos resultados demonstram que o Meta-RL fornece uma abordagem fundamentada para induzir a exploração em agentes de linguagem, permitindo uma adaptação mais robusta a novos ambientes por meio de estratégias de exploração aprendidas.
O aprendizado por reforço (RL) reemergiu como uma abordagem natural para treinar agentes de LLM interativos em ambientes do mundo real. No entanto, a aplicação direta do amplamente utilizado algoritmo Group Relative Policy Optimization (GRPO) a tarefas de múltiplos turnos expõe limitações notáveis, particularmente em cenários que exigem raciocínio de longo horizonte. Para enfrentar esses desafios, investigamos estratégias de estimativa de vantagem mais estáveis e eficazes, especialmente para configurações de múltiplos turnos. Primeiro, exploramos o Proximal Policy Optimization (PPO) como uma alternativa e descobrimos que ele é mais robusto que o GRPO. Para aprimorar ainda mais o PPO em cenários de múltiplos turnos, introduzimos o turn-PPO, uma variante que opera em uma formulação de MDP em nível de turno, em oposição ao MDP em nível de token comumente usado. Nossos resultados nos conjuntos de dados WebShop e Sokoban demonstram a eficácia do turn-PPO, tanto com quanto sem componentes de raciocínio longo.
Os avanços recentes em modelos de mundo têm aprimorado significativamente a simulação de ambientes interativos. Os métodos existentes dividem-se principalmente em duas categorias: (1) modelos de geração de mundos estáticos, que constroem ambientes 3D sem agentes ativos, e (2) modelos de entidades controláveis, que permitem que uma única entidade realize ações limitadas em um ambiente que, de outra forma, seria incontrolável. Neste trabalho, introduzimos o AniX, aproveitando o realismo e a fundamentação estrutural da geração de mundos estáticos, enquanto estendemos os modelos de entidades controláveis para suportar personagens especificados pelo usuário, capazes de realizar ações de final aberto. Os usuários podem fornecer uma cena 3DGS e um personagem, e então direcionar o personagem por meio de linguagem natural para executar diversos comportamentos, desde locomoção básica até interações centradas em objetos, enquanto explora livremente o ambiente. O AniX sintetiza clipes de vídeo temporalmente coerentes que preservam a fidelidade visual com a cena e o personagem fornecidos, sendo formulado como um problema de geração de vídeo autoregressivo condicional. Desenvolvido com base em um gerador de vídeo pré-treinado, nossa estratégia de treinamento aprimora significativamente a dinâmica do movimento, mantendo a generalização entre ações e personagens. Nossa avaliação abrange uma ampla gama de aspectos, incluindo qualidade visual, consistência do personagem, controlabilidade da ação e coerência de longo prazo.
Benchmarks como o SWE-bench padronizaram a avaliação de Modelos de Linguagem de Grande Escala (LLMs) em tarefas de engenharia de software em nível de repositório. No entanto, esses esforços permanecem limitados pela curadoria manual, conjuntos de dados estáticos e um foco em correções de bugs baseadas em Python. Apresentamos o SWE-Bench++, uma estrutura automatizada que gera tarefas de codificação em nível de repositório a partir de projetos de código aberto do GitHub. Diferente de abordagens sintéticas, nosso *pipeline* coleta *pull requests* ativos para abranger tanto correções de bugs quanto solicitações de funcionalidades em 11 linguagens. O SWE-Bench++ transforma *pull requests* (PRs) do GitHub em tarefas reproduzíveis e baseadas em execução por meio de quatro estágios: captação programática, síntese de ambiente, extração de oráculo de teste e garantia de qualidade. Um passo final de síntese de trajetória com dicas converte instâncias em que modelos robustos falham em trajetórias de treinamento. Nosso *benchmark* inicial consiste em 11.133 instâncias de 3.971 repositórios em 11 linguagens. Em um subconjunto de 1.782 instâncias deste *benchmark*, os modelos mais fortes atuais têm o seguinte desempenho: claude-sonnet-4.5 alcança 36,20% de *pass@10*, gpt-5-2025-08-07 34,57%, gemini/gemini-2.5-pro 24,92% e gpt-4o 16,89%. Demonstramos ainda a utilidade do nosso conjunto de dados ao mostrar que o *fine-tuning* em instâncias do SWE-Bench++ produz melhorias mensuráveis no *benchmark* SWE-bench Multilingual. O SWE-Bench++ fornece um *benchmark* escalável e multilíngue para avaliar e melhorar a geração de código em nível de repositório.
A modelagem Visual Autoregressiva (VAR) difere do paradigma de previsão do próximo token dos modelos Autoregressivos (AR) tradicionais através da previsão da próxima escala, permitindo a geração de imagens de alta qualidade. No entanto, o paradigma VAR sofre com um aumento acentuado da complexidade computacional e do tempo de execução em etapas de larga escala. Embora os métodos de aceleração existentes reduzam o tempo de execução para etapas de larga escala, eles dependem da seleção manual de etapas e ignoram a importância variável de diferentes estágios no processo de geração. Para enfrentar este desafio, apresentamos o StageVAR, um estudo sistemático e uma estrutura de aceleração consciente dos estágios para modelos VAR. Nossa análise mostra que as etapas iniciais são críticas para preservar a consistência semântica e estrutural e devem permanecer intactas, enquanto as etapas posteriores refinam principalmente detalhes e podem ser podadas ou aproximadas para aceleração. Com base nessas percepções, o StageVAR introduz uma estratégia de aceleração plug-and-play que explora a irrelevância semântica e as propriedades de baixa classificação (low-rank) nos cálculos de estágio final, sem exigir treinamento adicional. Nosso StageVAR proposto alcança uma aceleração de até 3,4x com apenas uma queda de 0,01 no GenEval e uma diminuição de 0,26 no DPG, superando consistentemente as linhas de base de aceleração existentes. Esses resultados destacam o design consciente dos estágios como um princípio poderoso para a geração eficiente de imagens autoregressivas visuais.
A compreensão multimodal de vídeos de longa duração requer a integração de visão, fala e áudio ambiente com um raciocínio coerente de longo alcance. Os benchmarks existentes enfatizam a duração temporal ou a riqueza multimodal, mas raramente ambas, e embora alguns incorporem perguntas abertas e métricas avançadas, a maioria depende da precisão de pontuação única, obscurecendo os modos de falha. Apresentamos o LongShOTBench, um benchmark de diagnóstico com perguntas abertas e orientadas por intenção; diálogos de um ou vários turnos; e tarefas que exigem raciocínio multimodal e uso de ferramentas agentivas em vídeo, áudio e fala. Cada item inclui uma resposta de referência e uma rubrica classificada para avaliação interpretável e rastreável. O LongShOTBench é produzido por meio de um pipeline escalável e validado por humanos para garantir cobertura e reprodutibilidade. Todas as amostras no nosso LongShOTBench são verificadas e corrigidas por humanos. Além disso, apresentamos o LongShOTAgent, um sistema agentivo que analisa vídeos longos por meio de pré-processamento, busca e refinamento iterativo. No LongShOTBench, os MLLMs (Modelos de Linguagem Multimodal) de última geração mostram grandes lacunas: o Gemini-2.5-Flash atinge 52,95%, os modelos de código aberto permanecem abaixo de 30% e o LongShOTAgent atinge 44,66%. Esses resultados ressaltam a dificuldade da compreensão de vídeos longos do mundo real. O LongShOTBench fornece uma base prática e reproduzível para avaliar e melhorar os MLLMs. Todos os recursos estão disponíveis no GitHub: https://github.com/mbzuai-oryx/longshot.
Os modelos de Texto-para-Imagem (TTI) geram imagens com base em prompts de texto, que frequentemente deixam aspectos da imagem desejada ambíguos. Ao depararem-se com essas ambiguidades, foi demonstrado que os modelos TTI exibem vieses nas suas interpretações. Estes vieses podem ter impactos societais, por exemplo, ao mostrar apenas uma determinada raça para uma profissão mencionada. Também podem afetar a experiência do utilizador ao criar redundância num conjunto de imagens geradas, em vez de abranger possibilidades diversas. Aqui, apresentamos o MineTheGap – um método para minar automaticamente prompts que levam um modelo TTI a gerar resultados enviesados. O nosso método vai além da mera deteção de viés para um prompt dado. Em vez disso, aproveita um algoritmo genético para refinar iterativamente um conjunto de prompts, procurando aqueles que expõem vieses. Este processo de otimização é orientado por uma nova métrica de viés, que classifica os vieses de acordo com a sua gravidade, conforme validamos num conjunto de dados com vieses conhecidos. Para um determinado prompt, esta pontuação é obtida comparando a distribuição de imagens geradas com a distribuição de textos gerados por LLM que constituem variações sobre o prompt. O código e exemplos estão disponíveis na página web do projeto.