Artigos de pesquisa em IA selecionados diariamente com traduções
O Aprendizado por Reforço a partir de Recompensas do Verificador (RLVR) emergiu como uma abordagem amplamente utilizada para o pós-treinamento de grandes modelos de linguagem em tarefas de raciocínio, com métodos baseados em grupo, como GRPO e suas variantes, ganhando ampla adoção. Esses métodos dependem da estimativa de vantagem relativa ao grupo para evitar o uso de críticos aprendidos, mas suas propriedades teóricas permanecem pouco compreendidas. Neste trabalho, descobrimos uma questão fundamental do RL baseado em grupo: o estimador de vantagem relativa ao grupo é inerentemente tendencioso em relação à vantagem verdadeira (esperada). Apresentamos a primeira análise teórica mostrando que ele subestima sistematicamente as vantagens para prompts difíceis e as superestima para prompts fáceis, levando a uma exploração e exploração desequilibradas. Para resolver esse problema, propomos o Ponderação Adaptativa de Dificuldade com Consciência Histórica (HA-DW), um esquema de reponderação adaptativa que ajusta as estimativas de vantagem com base em uma âncora de dificuldade evolutiva e na dinâmica do treinamento. Tanto a análise teórica quanto os experimentos em cinco benchmarks de raciocínio matemático demonstram que o HA-DW melhora consistentemente o desempenho quando integrado ao GRPO e suas variantes. Nossos resultados sugerem que corrigir a estimativa tendenciosa de vantagem é crucial para um treinamento RLVR robusto e eficiente.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tem impulsionado progressos substanciais em domínios que exigem raciocínio intensivo, como a matemática. No entanto, a otimização da geração de texto aberto permanece um desafio devido à ausência de uma verdade fundamental. Embora a avaliação baseada em rubricas ofereça um proxy estruturado para verificação, os métodos existentes sofrem com gargalos de escalabilidade e critérios pouco refinados, resultando em um efeito de teto de supervisão. Para resolver isso, propomos um framework automatizado de Geração de Rubricas do Amplo ao Específico. Ao sinergizar síntese guiada por princípios, agregação multi-modelo e evolução de dificuldade, nossa abordagem produz critérios abrangentes e altamente discriminativos, capazes de capturar nuances sutis. Com base neste framework, introduzimos o RubricHub, um conjunto de dados em larga escala (~110k) e multi-domínio. Validamos sua utilidade por meio de um pipeline de pós-treinamento em dois estágios, compreendendo o Ajuste Fino por Amostragem de Rejeição Baseada em Rubrica (RuFT) e o Aprendizado por Reforço (RuRL). Resultados experimentais demonstram que o RubricHub desbloqueia ganhos significativos de desempenho: nosso modelo Qwen3-14B pós-treinado alcança resultados de estado da arte (SOTA) no HealthBench (69,3), superando modelos proprietários de fronteira, como o GPT-5. O código e os dados serão liberados em breve.
A integração de agentes de IA nos mercados económicos altera fundamentalmente o panorama da interação estratégica. Investigamos as implicações económicas da expansão do conjunto de tecnologias disponíveis em três cenários teóricos de jogos canónicos: barganha (divisão de recursos), negociação (comércio com informação assimétrica) e persuasão (transmissão estratégica de informação). Concluímos que o simples aumento da escolha de delegados de IA pode alterar drasticamente os payoffs de equilíbrio e os resultados regulatórios, criando frequentemente incentivos para que os reguladores desenvolvam e lancem tecnologias proativamente. Inversamente, identificamos um fenómeno estratégico denominado efeito "Maçã Envenenada": um agente pode lançar uma nova tecnologia, que nem ele nem o seu oponente acabam por utilizar, apenas para manipular a escolha do design de mercado pelo regulador a seu favor. Este lançamento estratégico melhora o bem-estar do agente que o efetua à custa do seu oponente e dos objetivos de equidade do regulador. As nossas conclusões demonstram que os quadros regulatórios estáticos são vulneráveis à manipulação através da expansão tecnológica, necessitando de designs de mercado dinâmicos que se adaptem ao panorama em evolução das capacidades da IA.
Permitir que os Modelos de Linguagem de Grande Porte (LLMs) utilizem ferramentas de forma eficaz em interações multi-turno é essencial para a construção de agentes autónomos capazes. No entanto, a aquisição de dados diversos e realistas de utilização de ferramentas em multi-turno continua a ser um desafio significativo. Neste trabalho, propomos um novo paradigma baseado em texto. Observamos que os corpora textuais contêm naturalmente experiências ricas de resolução de problemas em múltiplas etapas, que podem servir como uma fonte de dados inexplorada, escalável e autêntica para tarefas de utilização de ferramentas em multi-turno. Com base nesta perceção, introduzimos o GEM, um *pipeline* de síntese de dados que permite a geração e extração de trajetórias de utilização de ferramentas em multi-turno a partir de corpora textuais através de um processo de quatro etapas: filtragem por relevância, extração de fluxo de trabalho e ferramentas, fundamentação da trajetória e refinamento de complexidade. Para reduzir o custo computacional, treinámos ainda um Sintetizador de Trajetórias especializado através de *fine-tuning* supervisionado. Este modelo destila o complexo *pipeline* de geração num gerador de trajetórias eficiente e de ponta a ponta. Experiências demonstram que o nosso GEM-32B alcança uma melhoria de 16.5% no *benchmark* BFCL V3 Multi-turn. Os nossos modelos superam parcialmente o desempenho de modelos treinados com dados do domínio específico do τ-bench (Airline e Retail), destacando a capacidade de generalização superior derivada do nosso paradigma de síntese baseado em texto. Notavelmente, o nosso Sintetizador de Trajetórias iguala a qualidade do *pipeline* completo, reduzindo significativamente a latência e os custos de inferência.
Os agentes autónomos baseados em Large Language Models (LLMs) demonstram capacidades multifacetadas para contribuir substancialmente para a produção económica. No entanto, os benchmarks existentes mantêm-se focados em capacidades agentíticas individuais, falhando em capturar cenários do mundo real de longo horizonte. Além disso, a dependência de *feedback* humano em tarefas realistas cria um estrangulamento de escalabilidade, dificultando a recolha e avaliação automatizada de *rollouts*. Para colmatar esta lacuna, introduzimos o AgencyBench, um benchmark abrangente derivado do uso diário de IA, avaliando 6 capacidades agentíticas centrais em 32 cenários do mundo real, compreendendo 138 tarefas com consultas específicas, entregáveis e rubricas. Estes cenários requerem em média 90 chamadas a ferramentas, 1 milhão de *tokens* e horas de tempo de execução para serem resolvidos. Para permitir a avaliação automatizada, empregamos um agente de simulação de utilizador para fornecer *feedback* iterativo e um *sandbox* Docker para realizar uma avaliação baseada em rubricas visuais e funcionais. Experiências revelam que os modelos de código fechado superam significativamente os modelos de código aberto (48,4% vs 32,1%). Uma análise mais aprofundada revela disparidades significativas entre modelos em eficiência de recursos, autocorreção orientada por *feedback* e preferências específicas de uso de ferramentas. Finalmente, investigamos o impacto de *scaffolds* agentíticos, observando que os modelos proprietários demonstram desempenho superior dentro dos seus ecossistemas nativos (por exemplo, Claude-4.5-Opus via Claude-Agent-SDK), enquanto os modelos de código aberto exibem picos de desempenho distintos, sugerindo potencial otimização para estruturas de execução específicas. O AgencyBench serve como um banco de testes crítico para a próxima geração de agentes, destacando a necessidade de co-otimizar a arquitetura do modelo com estruturas agentíticas. Acreditamos que este trabalho lança luz sobre a direção futura dos agentes autónomos, e disponibilizamos o benchmark completo e o kit de ferramentas de avaliação em https://github.com/GAIR-NLP/AgencyBench.
Os grandes modelos de linguagem (LLMs) personalizados adaptam o comportamento do modelo a utilizadores individuais para aumentar a satisfação do utilizador, contudo a personalização pode inadvertidamente distorcer o raciocínio factual. Demonstramos que, quando LLMs personalizados enfrentam consultas factuais, ocorre um fenômeno em que o modelo gera respostas alinhadas com o histórico prévio do utilizador em vez da verdade objetiva, resultando em alucinações induzidas pela personalização que degradam a confiabilidade factual e podem propagar crenças incorretas, devido ao entrelaçamento representacional entre as representações de personalização e factuais. Para resolver este problema, propomos o Direcionamento Personalizado com Preservação da Factualidade (FPPS), uma abordagem leve durante a inferência que mitiga as distorções factuais induzidas pela personalização, preservando o comportamento personalizado. Introduzimos ainda o PFQABench, o primeiro benchmark concebido para avaliar conjuntamente a resposta a perguntas factuais e personalizadas sob personalização. Experiências com várias arquiteturas de LLM e métodos de personalização mostram que o FPPS melhora substancialmente a precisão factual mantendo o desempenho personalizado.
Os modelos Visão-Linguagem-Ação (VLA) emergiram como políticas robóticas generalistas essenciais para diversas tarefas de manipulação, baseando-se convencionalmente na tradução direta de entradas multimodais em ações por meio de incorporações de Modelos de Linguagem de Visão (VLM). Avanços recentes introduziram raciocínio intermediário explícito, como previsão de subtarefas (linguagem) ou síntese de imagens-alvo (visão), para orientar a geração de ações. No entanto, esses raciocínios intermediários são frequentemente indiretos e intrinsecamente limitados em sua capacidade de transmitir a informação completa e granular necessária para uma execução precisa de ações. Em vez disso, postulamos que a forma mais eficaz de raciocínio é aquela que delibera diretamente no espaço de ação. Introduzimos o Action Chain-of-Thought (ACoT), um paradigma no qual o próprio processo de raciocínio é formulado como uma sequência estruturada de intenções de ação grosseiras que orientam a política final. Neste artigo, propomos o ACoT-VLA, uma nova arquitetura que materializa o paradigma ACoT. Especificamente, introduzimos dois componentes complementares: um Explicit Action Reasoner (EAR) e um Implicit Action Reasoner (IAR). O primeiro propõe trajetórias de referência grosseiras como etapas explícitas de raciocínio no nível da ação, enquanto o último extrai prévios de ação latentes das representações internas da entrada multimodal, co-formando um ACoT que condiciona o módulo de ação subsequente para permitir uma aprendizagem de política fundamentada. Experimentos extensos em ambientes do mundo real e de simulação demonstram a superioridade do nosso método proposto, que atinge 98,5%, 84,1% e 47,4% no LIBERO, LIBERO-Plus e VLABench, respectivamente.
Os avanços recentes na geração de formas 3D têm alcançado resultados impressionantes, mas a maioria dos métodos existentes depende de entradas limpas, sem oclusão e bem segmentadas. Tais condições raramente são atendidas em cenários do mundo real. Apresentamos o ShapeR, uma nova abordagem para a geração condicional de formas de objetos 3D a partir de sequências capturadas casualmente. Dada uma sequência de imagens, aproveitamos algoritmos de SLAM visual-inercial, detecção 3D e modelos visão-linguagem prontos para uso para extrair, para cada objeto, um conjunto de pontos esparsos do SLAM, imagens com pose de múltiplas visualizações e legendas geradas por máquina. Um transformador de fluxo retificado, treinado para condicionar efetivamente nessas modalidades, gera então formas 3D métricas de alta fidelidade. Para garantir robustez aos desafios dos dados capturados casualmente, empregamos uma série de técnicas, incluindo aumentos composicionais dinâmicos, um esquema de treinamento curricular abrangendo conjuntos de dados em nível de objeto e de cena, e estratégias para lidar com desordem de fundo. Adicionalmente, introduzimos um novo benchmark de avaliação composto por 178 objetos "in-the-wild" em 7 cenas do mundo real com anotações de geometria. Os experimentos mostram que o ShapeR supera significativamente as abordagens existentes neste cenário desafiador, alcançando uma melhoria de 2,7x na distância de Chamfer em comparação com o estado da arte.
As representações de movimento futuro, como o fluxo óptico, oferecem um valor imenso para tarefas de controle e geração. No entanto, prever representações de movimento espacialmente densas e generalizáveis permanece um desafio fundamental, e a aprendizagem dessa previsão a partir de dados reais e ruidosos permanece relativamente inexplorada. Apresentamos o FOFPred, um novo modelo de previsão de fluxo óptico condicionado por linguagem que apresenta uma arquitetura unificada de Modelo de Visão e Linguagem (VLM) e Difusão. Esta combinação única permite um forte raciocínio multimodal com fidelidade generativa a nível de pixel para a previsão de movimento futuro. O nosso modelo é treinado em dados de atividade humana em escala web - uma fonte altamente escalável, mas não estruturada. Para extrair sinais significativos destes dados ruidosos de vídeo-legenda, empregamos técnicas cruciais de pré-processamento de dados e a nossa arquitetura unificada com forte pré-treinamento de imagem. O modelo treinado resultante é então estendido para abordar duas tarefas distintas a jusante em controle e geração. Avaliações em manipulação robótica e geração de vídeo em cenários orientados por linguagem estabelecem a versatilidade transdomínio do FOFPred, confirmando o valor de uma arquitetura unificada VLM-Difusão e da aprendizagem escalável a partir de dados web diversificados para a previsão de fluxo óptico futuro.
A busca baseada em RL (aprendizagem por reforço) permite que LLMs resolvam questões complexas através de planeamento dinâmico e busca externa. Embora esta abordagem aumente significativamente a precisão com políticas de agente otimizadas via aprendizagem por reforço em larga escala, identificamos uma lacuna crítica na confiabilidade: estes agentes não reconhecem os seus limites de raciocínio e raramente admitem ``NÃO SEI'' (IDK), mesmo quando as evidências são insuficientes ou o raciocínio atinge o seu limite. A falta de confiabilidade frequentemente leva a respostas plausíveis, mas não confiáveis, introduzindo riscos significativos em muitos cenários do mundo real. Para tal, propomos a Otimização de Políticas com Consciência de Limites (BAPO), uma nova estrutura de RL concebida para cultivar uma consciência de limites confiável sem comprometer a precisão. A BAPO introduz dois componentes principais: (i) uma recompensa baseada em grupos com consciência de limites que incentiva uma resposta IDK apenas quando o raciocínio atinge o seu limite, e (ii) um modulador de recompensa adaptativo que suspende estrategicamente esta recompensa durante a exploração inicial, impedindo que o modelo explore o IDK como um atalho. Experiências extensas em quatro benchmarks demonstram que a BAPO aumenta substancialmente a confiabilidade geral da busca agentiva.
A geração de movimento humano a partir de prompts de texto tem feito progressos notáveis nos últimos anos. No entanto, os métodos existentes baseiam-se principalmente em descrições a nível de sequência ou de ação, devido à ausência de anotações de movimento granulares a nível de partes do corpo. Isto limita a sua capacidade de controlo sobre partes individuais do corpo. Neste trabalho, construímos um conjunto de dados de movimento de alta qualidade com anotações textuais a nível de partes do corpo, atómicas e temporalmente conscientes, aproveitando as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). Ao contrário de conjuntos de dados anteriores que fornecem legendas de partes sincronizadas com segmentos de tempo fixos ou que dependem apenas de etiquetas globais de sequência, o nosso conjunto de dados captura movimentos de partes assíncronos e semanticamente distintos com uma resolução temporal fina. Com base neste conjunto de dados, introduzimos uma framework de geração de movimento consciente das partes baseada em difusão, denominada FrankenMotion, na qual cada parte do corpo é guiada pelo seu próprio prompt textual com estrutura temporal. Este é, tanto quanto sabemos, o primeiro trabalho a fornecer anotações de movimento atómicas, temporalmente conscientes e a nível de partes do corpo, e a ter um modelo que permite a geração de movimento com controlo tanto espacial (parte do corpo) como temporal (ação atómica). Experiências demonstram que o FrankenMotion supera todos os modelos de referência anteriores adaptados e retreinados para a nossa configuração, e que o nosso modelo pode compor movimentos não vistos durante o treino. O nosso código e conjunto de dados estarão publicamente disponíveis após a publicação.
A implantação de LLMs apresenta dois desafios interligados: (1) monitoramento - estimar onde um modelo tem desempenho inferior à medida que o tráfego e os domínios se desviam - e (2) melhoria - priorizar a aquisição de dados para fechar as maiores lacunas de desempenho. Testamos se um sinal em tempo de inferência pode estimar a precisão a nível de *slice* sob mudança de domínio. Para cada resposta, calculamos um perfil de entropia da saída a partir das probabilidades do próximo *token* na camada final (a partir dos *logprobs* dos *top-k tokens*) e o resumimos com onze estatísticas. Um classificador leve prevê a correção da instância, e a média das probabilidades previstas produz uma estimativa de precisão a nível de domínio. Avaliamos em dez *benchmarks* de raciocínio STEM com composições exaustivas de treino/teste (k em {1,2,3,4}; todas as combinações "10 escolhe k"), em nove LLMs de seis famílias (3B-20B). As estimativas frequentemente acompanham a precisão do *benchmark* retido, e vários modelos mostram uma ordenação quase monotônica dos domínios. Os perfis de entropia da saída são, portanto, um sinal acessível para monitoramento escalável e para direcionar a aquisição de dados.
O ajuste fino supervisionado (SFT) é uma estratégia fundamental de pós-treinamento para alinhar os Grandes Modelos de Linguagem (LLMs) com a intenção humana. No entanto, o SFT tradicional frequentemente ignora a natureza um-para-muitos da linguagem, forçando o alinhamento com uma única resposta de referência, o que leva o modelo a sofrer sobreajuste a expressões não essenciais. Embora nossa análise empírica sugira que a introdução de múltiplas respostas de referência pode mitigar este problema, os custos proibitivos de dados e computação exigem uma mudança estratégica: priorizar a mitigação do sobreajuste à referência única em vez da busca custosa pela diversidade de respostas. Para alcançar isto, revelamos a conexão intrínseca entre a probabilidade do token e a importância semântica: tokens de alta probabilidade carregam a estrutura lógica central, enquanto tokens de baixa probabilidade são principalmente expressões substituíveis. Com base nesta perceção, propomos o ProFit, que mascara seletivamente tokens de baixa probabilidade para evitar o sobreajuste superficial. Experimentos extensivos confirmam que o ProFit supera consistentemente as linhas de base do SFT tradicional em benchmarks de raciocínio geral e matemático.
Os grandes modelos de linguagem alcançaram capacidades notáveis em diversos domínios, mas os mecanismos subjacentes ao raciocínio sofisticado permanecem elusivos. Modelos de raciocínio recentes superam modelos de instrução equivalentes em tarefas cognitivas complexas, atribuindo-se isso ao cálculo estendido por meio de cadeias de pensamento mais longas. Aqui demonstramos que o raciocínio aprimorado surge não apenas do cálculo estendido, mas da simulação de interações semelhantes às de múltiplos agentes – uma sociedade do pensamento – que permite a diversificação e o debate entre perspetivas cognitivas internas caracterizadas por traços de personalidade distintos e conhecimentos especializados de domínio. Através de análise quantitativa e métodos de interpretabilidade mecanicista aplicados a traços de raciocínio, descobrimos que modelos como o DeepSeek-R1 e o QwQ-32B exibem uma diversidade de perspetivas muito maior do que os modelos de instrução, ativando um conflito mais amplo entre características heterogéneas relacionadas com personalidade e conhecimento especializado durante o raciocínio. Esta estrutura multiagente manifesta-se em comportamentos conversacionais, incluindo perguntas e respostas, mudanças de perspetiva e a reconciliação de visões conflituosas, e em papéis socioemocionais que caracterizam conversas dinâmicas de vai-e-vem, explicando em conjunto a vantagem de precisão em tarefas de raciocínio. Experiências controladas de aprendizagem por reforço revelam que os modelos base aumentam os comportamentos conversacionais quando recompensados apenas pela precisão do raciocínio, e que o ajuste fino de modelos com andaimes conversacionais acelera a melhoria do raciocínio em relação aos modelos base. Estes resultados indicam que a organização social do pensamento permite uma exploração eficaz dos espaços de soluções. Sugerimos que os modelos de raciocínio estabelecem um paralelo computacional com a inteligência coletiva em grupos humanos, onde a diversidade permite uma resolução de problemas superior quando sistematicamente estruturada, o que sugere novas oportunidades para a organização de agentes aproveitarem a sabedoria das multidões.
Os princípios físicos são fundamentais para a simulação visual realista, mas continuam sendo uma omissão significativa na geração de vídeos baseada em transformers. Essa lacuna evidencia uma limitação crítica na renderização do movimento de corpos rígidos, um princípio fundamental da mecânica clássica. Embora a computação gráfica e os simuladores baseados em física possam modelar facilmente tais colisões usando as fórmulas de Newton, os paradigmas modernos de pré-treinamento e ajuste fino descartam o conceito de rigidez corporal durante a desruídos global em nível de pixel. Até mesmo restrições matemáticas perfeitamente corretas são tratadas como soluções subótimas (ou seja, condições) durante a otimização do modelo no pós-treinamento, limitando fundamentalmente o realismo físico dos vídeos gerados. Motivados por essas considerações, introduzimos, pela primeira vez, um paradigma de aprendizagem por reforço com consciência física para modelos de geração de vídeo que aplica regras de colisão física diretamente em espaços de alta dimensão, garantindo que o conhecimento físico seja estritamente aplicado em vez de tratado como condição. Posteriormente, estendemos este paradigma para uma estrutura unificada, denominada Ciclo de Mímica-Descoberta (MDcycle), que permite um ajuste fino substancial enquanto preserva totalmente a capacidade do modelo de alavancar *feedback* baseado em física. Para validar nossa abordagem, construímos um novo benchmark, o PhysRVGBench, e realizamos extensos experimentos qualitativos e quantitativos para avaliar minuciosamente sua eficácia.
A diversidade de saída é crucial para os Grandes Modelos de Linguagem, pois sustenta o pluralismo e a criatividade. Neste trabalho, revelamos que controlar a linguagem utilizada durante o pensamento do modelo - a linguagem do pensamento - constitui uma fonte nova e estrutural de diversidade na saída. Nosso estudo preliminar mostra que diferentes linguagens de pensamento ocupam regiões distintas no espaço de pensamento de um modelo. Com base nessa observação, estudamos duas estratégias de amostragem repetida sob pensamento multilíngue - Amostragem de Linguagem Única e Amostragem de Linguagem Mista - e realizamos uma avaliação de diversidade em saídas controladas para serem em inglês, independentemente da linguagem de pensamento utilizada. Através de extensivos experimentos, demonstramos que alternar a linguagem de pensamento do inglês para línguas não inglesas aumenta consistentemente a diversidade da saída, com uma correlação positiva clara e consistente, de modo que línguas mais distantes do inglês no espaço de pensamento produzem ganhos maiores. Mostramos ainda que agregar amostras de múltiplas linguagens de pensamento produz melhorias adicionais através de efeitos composicionais, e que escalonar a amostragem com heterogeneidade linguística expande o limite de diversidade do modelo. Finalmente, demonstramos que essas descobertas se traduzem em benefícios práticos em cenários de alinhamento pluralístico, levando a uma cobertura mais ampla de conhecimento cultural e orientações de valor nas saídas dos LLMs. Nosso código está publicamente disponível em https://github.com/iNLP-Lab/Multilingual-LoT-Diversity.
As capacidades dos modelos de linguagem de fronteira estão a melhorar rapidamente. Por isso, precisamos de mitigações mais robustas contra agentes mal-intencionados que utilizem indevidamente sistemas cada vez mais poderosos. Trabalhos anteriores mostraram que as sondas de ativação podem ser uma técnica promissora de mitigação de uso indevido, mas identificámos um desafio fundamental remanescente: as sondas não conseguem generalizar sob mudanças de distribuição importantes em produção. Em particular, verificamos que a transição de inputs de contexto curto para inputs de contexto longo é difícil para as arquiteturas de sondas existentes. Propomos várias novas arquiteturas de sonda que lidam com esta mudança de distribuição de contexto longo. Avaliámos estas sondas no domínio cibernético ofensivo, testando a sua robustez contra várias mudanças relevantes para produção, incluindo conversas multi-turno, *jailbreaks* estáticos e *red teaming* adaptativo. Os nossos resultados demonstram que, embora a abordagem multimax aborde o comprimento do contexto, é necessária uma combinação da escolha da arquitetura e do treino em distribuições diversificadas para uma generalização abrangente. Adicionalmente, mostramos que emparelhar sondas com classificadores baseados em *prompts* atinge uma precisão ótima a um custo reduzido, devido à eficiência computacional das sondas. Estas descobertas informaram a implementação bem-sucedida de sondas de mitigação de uso indevido em instâncias do Gemini, o modelo de linguagem de fronteira da Google, voltadas para o utilizador. Finalmente, obtivemos resultados positivos preliminares usando o AlphaEvolve para automatizar melhorias tanto na pesquisa de arquitetura de sondas como no *red teaming* adaptativo, mostrando que já é possível automatizar parte da investigação em segurança de IA.
Embora os agentes de interface gráfica (GUI) tenham demonstrado um desempenho sólido sob instruções explícitas e de conclusão, a implantação no mundo real exige o alinhamento com as intenções implícitas mais complexas dos utilizadores. Neste trabalho, destacamos o Alinhamento Hierárquico de Intenções Implícitas para Agentes GUI Personalizados (PersonalAlign), uma nova tarefa para agentes que exige que estes utilizem registos de utilizador de longo prazo como contexto persistente para resolver preferências omitidas em instruções vagas e antecipar rotinas latentes com base no estado do utilizador para uma assistência proativa. Para facilitar este estudo, introduzimos o AndroidIntent, um *benchmark* concebido para avaliar a capacidade dos agentes em resolver instruções vagas e fornecer sugestões proativas através do raciocínio sobre registos de utilizador de longo prazo. Anotámos 775 preferências específicas do utilizador e 215 rotinas a partir de 20 mil registos de longo prazo de diferentes utilizadores para avaliação. Adicionalmente, introduzimos o Agente de Memória de Intenções Hierárquicas (HIM-Agent), que mantém uma memória pessoal em atualização contínua e organiza hierarquicamente as preferências e rotinas do utilizador para personalização. Por fim, avaliamos uma série de agentes GUI no AndroidIntent, incluindo GPT-5, Qwen3-VL e UI-TARS; os resultados adicionais mostram que o HIM-Agent melhora significativamente o desempenho de execução e proativo em 15,7% e 7,3%, respetivamente.
Os Grandes Modelos de Visão e Linguagem (LVLMs) demonstraram capacidades notáveis, mas sua proficiência na compreensão e raciocínio sobre múltiplas imagens permanece amplamente inexplorada. Embora os benchmarks existentes tenham iniciado a avaliação de modelos multi-imagem, ainda falta uma análise abrangente de suas principais fraquezas e suas causas. Neste trabalho, introduzimos o MIMIC (Multi-Image Model Insights and Challenges), um novo benchmark projetado para avaliar rigorosamente as capacidades multi-imagem dos LVLMs. Utilizando o MIMIC, conduzimos uma série de experimentos de diagnóstico que revelam problemas generalizados: os LVLMs frequentemente falham em agregar informações entre imagens e lutam para rastrear ou atender a múltiplos conceitos simultaneamente. Para abordar essas falhas, propomos dois novos remédios complementares. No lado dos dados, apresentamos uma estratégia procedural de geração de dados que compõe anotações de imagem única em exemplos de treinamento multi-imagem ricos e direcionados. No lado da otimização, analisamos padrões de atenção por camadas e derivamos um esquema de mascaramento de atenção adaptado para entradas multi-imagem. Os experimentos melhoraram substancialmente a agregação entre imagens, ao mesmo tempo que aprimoraram o desempenho em benchmarks multi-imagem existentes, superando o estado da arte anterior em diversas tarefas. Dados e código estarão disponíveis em https://github.com/anurag-198/MIMIC.
Os recentes avanços em modelos de linguagem grandes (LLMs) agentes posicionaram-nos como planejadores generalistas capazes de raciocinar e agir em diversas tarefas. No entanto, os benchmarks de agentes existentes concentram-se largamente em ambientes simbólicos ou fracamente fundamentados, deixando o seu desempenho em domínios do mundo real com restrições físicas pouco explorado. Apresentamos o AstroReason-Bench, um benchmark abrangente para avaliar o planejamento agentivo em Problemas de Planejamento Espacial (PPE), uma família de problemas de alto risco com objetivos heterogéneos, restrições físicas rigorosas e tomada de decisão de longo horizonte. O AstroReason-Bench integra múltiplos regimes de escalonamento, incluindo comunicação com estações terrestres e observação ágil da Terra, e fornece um protocolo de interação unificado orientado a agentes. Avaliando uma variedade de sistemas de LLM agentes de última geração, de código aberto e proprietários, descobrimos que os agentes atuais têm um desempenho substancialmente inferior ao de solucionadores especializados, destacando limitações fundamentais do planejamento generalista sob restrições realistas. O AstroReason-Bench oferece um campo de testes desafiador e diagnóstico para futuras pesquisas em agentividade.
Os modelos recentes de geração de vídeo baseados em difusão podem sintetizar vídeos visualmente plausíveis, mas frequentemente têm dificuldade em satisfazer restrições físicas. Uma razão fundamental é que a maioria das abordagens existentes permanece em estágio único: elas entrelaçam a compreensão física de alto nível com a síntese visual de baixo nível, tornando difícil gerar conteúdo que exija raciocínio físico explícito. Para superar essa limitação, propomos um pipeline de três estágios que não requer treinamento, o **PhyRPR: PhyReason – PhyPlan – PhyRefine**, que desacopla a compreensão física da síntese visual. Especificamente, o **PhyReason** utiliza um modelo multimodal de grande escala para o raciocínio sobre o estado físico e um gerador de imagens para a síntese de *keyframes*; o **PhyPlan** sintetiza deterministicamente um arcabouço de movimento grosseiro e controlável; e o **PhyRefine** injeta este arcabouço na amostragem de difusão através de uma estratégia de fusão latente para refinar a aparência, preservando as dinâmicas planejadas. Este projeto em estágios permite um controle físico explícito durante a geração. Experimentos extensivos sob restrições físicas demonstram que nosso método melhora consistentemente a plausibilidade física e a controlabilidade do movimento.
Estudamos a curadoria de dados para raciocínio multimodal por meio do desafio NeurIPS 2025 Data Curation for Vision-Language Reasoning (DCVLR), que isola a seleção de conjuntos de dados ao fixar o modelo e o protocolo de treinamento. Utilizando um conjunto de dados compacto e curado derivado principalmente do Walton Multimodal Cold Start, nossa submissão alcançou o primeiro lugar no desafio. Por meio de ablações pós-competição, demonstramos que a seleção de exemplos baseada em dificuldade em um conjunto de dados base alinhado é o principal fator responsável pelos ganhos de desempenho. O aumento do tamanho do conjunto de dados não melhora de forma confiável a precisão média sob a receita de treinamento fixa, mas principalmente reduz a variância entre execuções, enquanto heurísticas comumente utilizadas de diversidade e aumento sintético de dados não proporcionam benefícios adicionais e frequentemente degradam o desempenho. Esses resultados caracterizam o DCVLR como uma avaliação em regime de saturação e destacam o papel central do alinhamento e da dificuldade no raciocínio multimodal eficiente em termos de dados.