Artigos de pesquisa em IA selecionados diariamente com traduções
O raciocínio multimodal requer uma coordenação iterativa entre linguagem e visão, mas ainda não está claro o que constitui uma cadeia de pensamento intercalada significativa. Postulamos que os pensamentos textuais e visuais devem funcionar como modalidades complementares, e não isomórficas, que avançam mutuamente o raciocínio. Guiados por este princípio, construímos o ThinkMorph, um modelo unificado fine-tunado em 24 mil traços de raciocínio intercalados de alta qualidade, abrangendo tarefas com engajamento visual variável. O ThinkMorph aprende a gerar passos progressivos de raciocínio texto-imagem que manipulam concretamente o conteúdo visual, mantendo ao mesmo tempo uma lógica verbal coerente. Ele produz ganhos significativos em benchmarks centrados na visão (média de 34,7% acima do modelo base) e generaliza para tarefas fora do domínio, equiparando ou superando VLMs maiores e proprietários. Além do desempenho, o ThinkMorph exibe inteligência multimodal emergente, incluindo habilidades de manipulação visual não vistas, comutação adaptativa entre modos de raciocínio e melhor escalabilidade em tempo de teste através de pensamentos multimodais diversificados. Essas descobertas sugerem direções promissoras para caracterizar as capacidades emergentes de modelos unificados para raciocínio multimodal.
O hardware moderno de IA, como a arquitetura Blackwell da Nvidia, está a adotar cada vez mais formatos de vírgula flutuante (FP) de baixa precisão para lidar com os valores ativacionais extremos (outliers) omnipresentes nos Grandes Modelos de Linguagem (LLMs). Apesar desta tendência da indústria, faltava uma comparação unificada da quantização em FP e inteiro (INT) através de diferentes granularidades, deixando o codesenho de algoritmos e hardware sem orientação clara. Este artigo preenche essa lacuna ao investigar sistematicamente os compromissos entre os formatos FP e INT. Revelamos um ponto de viragem crítico no desempenho: embora o FP se destaque na quantização de granularidade grossa, a comparação a níveis de granularidade fina (ao nível do bloco) é mais subtil. A nossa comparação abrangente demonstra que, para os formatos de granularidade fina de 8 bits populares (por exemplo, MX com tamanho de bloco 32), o MXINT8 é superior ao seu homólogo FP, tanto na precisão algorítmica como na eficiência de hardware. No entanto, para formatos de 4 bits, o FP (por exemplo, MXFP4, NVFP4) mantém frequentemente uma vantagem em precisão, embora mostremos que o NVINT4 pode superar o NVFP4 quando são aplicadas técnicas de mitigação de *outliers* como a rotação de Hadamard. Também introduzimos um método de corte simétrico que resolve o enviesamento do gradiente no treino INT de baixos bits e granularidade fina, permitindo um desempenho quase sem perdas para o treino de MXINT8. Estas descobertas desafiam a trajetória atual do hardware, demonstrando que uma abordagem universal de FP é subótima e defendendo que os formatos INT de granularidade fina, particularmente o MXINT8, oferecem um melhor equilíbrio entre precisão, potência e eficiência para os futuros aceleradores de IA.
A eficiência dos grandes modelos de linguagem (LLMs) é fundamentalmente limitada pelo seu processo sequencial de geração, token a token. Argumentamos que superar este gargalo exige um novo eixo de dimensionamento para LLMs: aumentar a largura de banda semântica de cada passo generativo. Para esse fim, introduzimos os *Continuous Autoregressive Language Models* (CALM), uma mudança de paradigma da previsão discreta do próximo token para a previsão contínua do próximo vetor. O CALM utiliza um autoencoder de alta fidelidade para comprimir um bloco de K tokens num único vetor contínuo, a partir do qual os tokens originais podem ser reconstruídos com mais de 99,9% de precisão. Isso permite-nos modelar a linguagem como uma sequência de vetores contínuos em vez de tokens discretos, o que reduz o número de passos generativos por um fator de K. A mudança de paradigma exige um novo conjunto de ferramentas de modelagem; portanto, desenvolvemos uma estrutura abrangente *likelihood-free* que permite um treino robusto, avaliação e amostragem controlável no domínio contínuo. Experiências mostram que o CALM melhora significativamente o compromisso desempenho-computação, alcançando o desempenho de fortes *baselines* discretas a um custo computacional significativamente menor. Mais importante ainda, estas descobertas estabelecem a previsão do próximo vetor como um caminho poderoso e escalável para modelos de linguagem ultra-eficientes. Código: https://github.com/shaochenze/calm. Projeto: https://shaochenze.github.io/blog/2025/CALM.
Agentes computacionais que utilizam modelos visão-linguagem (VLMs) têm demonstrado capacidades semelhantes às humanas na operação de ambientes digitais, como plataformas móveis. Embora esses agentes sejam muito promissores para o avanço da automação digital, seu potencial para operações inseguras, como comprometimento do sistema e vazamento de privacidade, está levantando preocupações significativas. Detectar esses problemas de segurança no vasto e complexo espaço operacional dos ambientes móveis representa um desafio formidável que permanece criticamente subexplorado. Para estabelecer uma base para a pesquisa em segurança de agentes móveis, apresentamos o MobileRisk-Live, um ambiente de sandbox dinâmico acompanhado por um benchmark de detecção de segurança composto por trajetórias realistas com anotações granulares. Com base nisso, propomos o OS-Sentinel, uma nova estrutura híbrida de detecção de segurança que combina sinergicamente um Verificador Formal para detectar violações explícitas em nível de sistema com um Juiz Contextual baseado em VLM para avaliar riscos contextuais e ações do agente. Experimentos mostram que o OS-Sentinel alcança melhorias de 10% a 30% em relação às abordagens existentes em múltiplas métricas. Uma análise mais aprofundada fornece insights críticos que fomentam o desenvolvimento de agentes móveis autônomos mais seguros e confiáveis.
Os modelos Visão-Linguagem-Ação (VLA) permitem que robôs compreendam e executem tarefas complexas a partir de entrada multimodal. Embora trabalhos recentes explorem o uso de aprendizado por reforço (RL) para automatizar o laborioso processo de coleta de dados no dimensionamento do ajuste fino supervisionado (SFT), a aplicação de RL em larga escala a VLAs baseados em fluxo (por exemplo, pi_0, pi_{0,5}) permanece desafiadora devido às log-verossimilhanças de ação intratáveis provenientes da remoção iterativa de ruído. Nós abordamos este desafio com pi_{RL}, uma estrutura de código aberto para treinar VLAs baseados em fluxo em simulação paralela. O pi_{RL} implementa dois algoritmos de RL: (1) {Flow-Noise} modela o processo de remoção de ruído como um MDP de tempo discreto com uma rede de ruído treinável para cálculo exato da log-verossimilhança. (2) {Flow-SDE} integra a remoção de ruído com a interação agente-ambiente, formulando um MDP de duas camadas que emprega conversão ODE-para-SDE para uma exploração de RL eficiente. Avaliamos o pi_{RL} nos benchmarks LIBERO e ManiSkill. No LIBERO, o pi_{RL} aumenta os modelos SFT de poucas amostras pi_0 e pi_{0,5} de 57,6% para 97,6% e de 77,1% para 98,3%, respectivamente. No ManiSkill, treinamos o pi_{RL} em 320 ambientes paralelos, melhorando o pi_0 de 41,6% para 85,7% e o pi_{0,5} de 40,0% para 84,8% em 4352 tarefas de pegar e colocar, demonstrando RL multitarefa escalável sob simulação heterogênea. No geral, o pi_{RL} alcança ganhos de desempenho significativos e generalização mais robusta em comparação com modelos SFT, validando a eficácia do RL online para VLAs baseados em fluxo.
O ajuste fino por aprendizagem por reforço (RL) de grandes modelos de linguagem (LLMs) frequentemente sofre de instabilidade devido ao descompasso numérico entre as políticas de treinamento e inferência. Embora trabalhos anteriores tenham tentado mitigar este problema através de correções algorítmicas ou alinhamentos de engenharia, demonstramos que a sua causa raiz reside na própria precisão de ponto flutuante. O amplamente adotado BF16, apesar da sua grande faixa dinâmica, introduz grandes erros de arredondamento que quebram a consistência entre o treinamento e a inferência. Neste trabalho, demonstramos que simplesmente reverter para o FP16 elimina eficazmente este descompasso. A alteração é simples, totalmente suportada por frameworks modernos com apenas algumas linhas de código alteradas, e não requer modificação na arquitetura do modelo ou no algoritmo de aprendizagem. Nossos resultados sugerem que o uso uniforme do FP16 produz uma otimização mais estável, convergência mais rápida e desempenho superior em diversas tarefas, algoritmos e frameworks. Esperamos que estas descobertas motivem uma reconsideração mais ampla dos trade-offs de precisão no ajuste fino por RL.
A compreensão espacial continua a ser uma fraqueza dos Grandes Modelos de Visão e Linguagem (LVLMs). Os atuais pipelines de ajuste fino supervisionado (SFT) e os recentes métodos de aprendizagem por reforço com recompensas verificáveis (RLVR) dependem de supervisão dispendiosa, ferramentas especializadas ou ambientes restritos que limitam a escala. Apresentamos o Spatial-SSRL, um paradigma de aprendizagem por reforço auto supervisionado que deriva sinais verificáveis diretamente de imagens RGB ou RGB-D comuns. O Spatial-SSRL formula automaticamente cinco tarefas de pretexto que capturam a estrutura espacial 2D e 3D: reordenação de *patches* embaralhados, reconhecimento de *patches* invertidos, preenchimento de *patches* recortados, ordenação de profundidade regional e previsão de posição relativa 3D. Estas tarefas fornecem respostas com veracidade garantida que são fáceis de verificar e não requerem anotação humana ou por LVLM. O treino nas nossas tarefas melhora substancialmente o raciocínio espacial, preservando as capacidades visuais gerais. Em sete *benchmarks* de compreensão espacial, tanto em contexto de imagem como de vídeo, o Spatial-SSRL proporciona ganhos médios de precisão de 4,63% (modelo de 3B) e 3,89% (modelo de 7B) face às linhas de base do Qwen2.5-VL. Os nossos resultados mostram que uma supervisão intrínseca e simples permite a RLVR em escala e fornece um caminho prático para uma inteligência espacial mais robusta em LVLMs.
O DMD (Distribution Matching Distillation) destila modelos generativos baseados em *score* em geradores eficientes de uma única etapa, sem exigir uma correspondência um-para-um com as trajetórias de amostragem de seus modelos professores. No entanto, a capacidade limitada do modelo faz com que os modelos destilados em uma única etapa tenham desempenho inferior em tarefas generativas complexas, por exemplo, na síntese de movimentos intrincados de objetos na geração de texto para vídeo. Estender diretamente o DMD para a destilação multi-etapa aumenta o uso de memória e a profundidade computacional, levando à instabilidade e redução da eficiência. Embora trabalhos anteriores proponham o truncamento estocástico do gradiente como uma solução potencial, observamos que isso reduz substancialmente a diversidade de geração dos modelos destilados multi-etapa, aproximando-a do nível de suas contrapartes de etapa única. Para superar essas limitações, propomos o Phased DMD, uma estrutura de destilação multi-etapa que une a ideia de destilação por fases com *Mixture-of-Experts* (MoE), reduzindo a dificuldade de aprendizado enquanto aumenta a capacidade do modelo. O Phased DMD é construído sobre duas ideias principais: correspondência progressiva de distribuição e correspondência de *score* dentro de subintervalos. Primeiro, nosso modelo divide a faixa de SNR em subintervalos, refinando progressivamente o modelo para níveis de SNR mais altos, para capturar melhor distribuições complexas. Em seguida, para garantir que o objetivo de treinamento dentro de cada subintervalo seja preciso, conduzimos derivações matemáticas rigorosas. Validamos o Phased DMD destilando modelos de geração de imagem e vídeo de última geração, incluindo Qwen-Image (20B parâmetros) e Wan2.2 (28B parâmetros). Resultados experimentais demonstram que o Phased DMD preserva a diversidade de saída melhor do que o DMD, mantendo as capacidades generativas essenciais. Disponibilizaremos nosso código e modelos.
A codificação posicional multimodal é essencial para modelos visão-linguagem, no entanto, houve pouca investigação sistemática sobre codificação posicional multimodal. Realizamos uma análise abrangente da Incorporação Posicional Rotativa (RoPE) multimodal examinando seus dois componentes principais: design posicional e alocação de frequência. Através de extensos experimentos, identificamos três diretrizes-chave: coerência posicional, utilização total de frequência e preservação de prioridades textuais - garantindo layout inequívoco, representação rica e transferência fiel do LLM pré-treinado. Com base nessas percepções, propomos RoPE Multi-Cabeça (MHRoPE) e RoPE-Intercalado (MRoPE-I), duas variantes simples e plug-and-play que não requerem alterações arquiteturais. Nossos métodos superam consistentemente as abordagens existentes em diversos benchmarks, com melhorias significativas tanto na compreensão multimodal geral quanto na granular. O código estará disponível em https://github.com/JJJYmmm/Multimodal-RoPEs.
Os agentes autónomos de interface gráfica do utilizador (GUI) dependem de uma fundamentação precisa da GUI, que mapeia instruções linguísticas para coordenadas no ecrã, para executar comandos do utilizador. No entanto, os modelos atuais, sejam treinados através de afinação supervisionada (SFT) ou de afinação por reforço (RFT), carecem de autoconsciência sobre os seus limites de capacidade, levando a excesso de confiança e previsões não confiáveis. Primeiro, avaliamos sistematicamente a confiança probabilística e verbalizada em modelos gerais e específicos para GUI, revelando um desalinhamento entre a confiança e a precisão real, o que é particularmente crítico em tarefas de automação de GUI dinâmicas, onde erros únicos podem causar falhas na tarefa. Para resolver isto, propomos o HyperClick, uma estrutura inovadora que melhora a fundamentação confiável da GUI através da calibração de incerteza. O HyperClick introduz um mecanismo de recompensa dupla, combinando uma recompensa binária para ações corretas com uma modelação de confiança espacial baseada numa Gaussiana truncada, calibrada usando o escore de Brier. Esta abordagem otimiza conjuntamente a precisão da fundamentação e a confiabilidade da confiança, promovendo a autocrítica introspetiva. Extensivas experiências em sete benchmarks de desafio mostram que o HyperClick alcança um desempenho de última geração, fornecendo ao mesmo tempo uma confiança bem calibrada. Ao permitir uma calibração explícita de confiança e uma autocrítica introspetiva, o HyperClick reduz o excesso de confiança e suporta uma automação de GUI mais confiável.
A verbosidade do raciocínio em Cadeia de Pensamento (CoT) dificulta sua implantação em massa em aplicações críticas para a eficiência. Recentemente, surgiram abordagens de CoT implícito, que codificam as etapas de raciocínio dentro dos embeddings ocultos do LLM (denominado "raciocínio implícito"), em vez de tokens explícitos. Essa abordagem acelera o CoT ao reduzir o comprimento do raciocínio e contornar alguns componentes do LLM. No entanto, os métodos existentes de CoT implícito enfrentam dois desafios significativos: (1) eles falham em preservar o alinhamento semântico entre o raciocínio implícito (quando transformado em linguagem natural) e o raciocínio fundamental verdadeiro (ground-truth), resultando em uma degradação significativa do desempenho do CoT, e (2) eles se concentram em reduzir o comprimento do raciocínio implícito; no entanto, negligenciam o considerável custo de tempo para um LLM gerar um token individual de raciocínio implícito. Para enfrentar esses desafios, propomos uma nova estrutura de CoT implícito semanticamente alinhada, denominada SemCoT. Especificamente, para o primeiro desafio, projetamos um sentence transformer treinado de forma contrastiva que avalia o alinhamento semântico entre o raciocínio implícito e explícito, o qual é usado para impor a preservação semântica durante a otimização do raciocínio implícito. Para abordar o segundo desafio, introduzimos um gerador eficiente de raciocínio implícito por meio do ajuste fino (finetuning) de um modelo de linguagem leve usando destilação de conhecimento. Este gerador é guiado pelo nosso sentence transformer para destilar o raciocínio fundamental verdadeiro em raciocínio implícito semanticamente alinhado, ao mesmo tempo que também otimiza a precisão. A SemCoT é a primeira abordagem que melhora a eficiência do CoT ao otimizar conjuntamente a velocidade de geração em nível de token e preservar o alinhamento semântico com o raciocínio fundamental verdadeiro. Experimentos extensivos demonstram o desempenho superior da SemCoT em comparação com os métodos state-of-the-art em eficiência e eficácia. Nosso código pode ser encontrado em https://github.com/YinhanHe123/SemCoT/.
O custo quadrático da atenção por produto escalar dimensionado é um obstáculo central para a escalabilidade de modelos de linguagem autorregressivos em contextos longos. Atenção em tempo linear e Modelos de Espaço de Estados (SSMs) oferecem alternativas escaláveis, mas são tipicamente restritos a aproximações de primeira ordem ou baseadas em kernels, o que pode limitar a expressividade. Apresentamos a Atenção Linear de Ordem Superior (HLA), um mecanismo causal e contínuo que realiza interações de ordem superior por meio de estatísticas suficientes compactas de prefixo. No caso de segunda ordem, a HLA mantém um estado de tamanho constante e calcula saídas por token em tempo linear sem materializar quaisquer matrizes n por n. Fornecemos identidades de streaming em forma fechada, uma variante mascarada estritamente causal usando dois resumos adicionais e um esquema de treinamento paralelo em blocos baseado em varreduras associativas que reproduz exatamente as ativações de uma recorrência serial. Esboçamos ainda extensões para terceira ordem e ordens superiores. Coletivamente, esses resultados posicionam a HLA como um bloco de construção escalável e fundamentado que combina a mistura dependente de dados, similar à atenção, com a eficiência das arquiteturas recorrentes modernas. Página do Projeto: https://github.com/yifanzhang-pro/HLA.
Os modelos de linguagem multimodal (MLLMs) avançaram os agentes incorporados ao permitir a percepção direta, o raciocínio e o planejamento de ações orientadas por tarefas a partir de entradas visuais. No entanto, tais agentes incorporados orientados por visão abrem uma nova superfície de ataque: os ataques de backdoor visual, nos quais o agente se comporta normalmente até que um gatilho visual apareça na cena, executando então persistentemente uma política de múltiplas etapas especificada pelo atacante. Apresentamos o BEAT, o primeiro framework para injetar tais backdoors visuais em agentes incorporados baseados em MLLM usando objetos no ambiente como gatilhos. Diferente de gatilhos textuais, os gatilhos de objeto exibem grande variação entre pontos de vista e iluminação, tornando-os difíceis de implantar de forma confiável. O BEAT aborda este desafio (1) construindo um conjunto de treinamento que abrange cenas, tarefas e posicionamentos de gatilho diversos para expor os agentes à variabilidade do gatilho, e (2) introduzindo um esquema de treinamento em dois estágios que primeiro aplica ajuste fino supervisionado (SFT) e depois nossa nova Aprendizagem de Gatilho por Contraste (CTL). A CTL formula a discriminação de gatilhos como uma aprendizagem de preferência entre entradas com e sem gatilho, aguçando explicitamente as fronteiras de decisão para garantir uma ativação precisa do backdoor. Em vários benchmarks de agentes incorporados e MLLMs, o BEAT atinge taxas de sucesso de ataque de até 80%, mantendo um forte desempenho em tarefas benignas e generalizando de forma confiável para posicionamentos de gatilho fora da distribuição. Notavelmente, em comparação com o SFT simples, a CTL aumenta a precisão de ativação do backdoor em até 39% sob dados limitados de backdoor. Essas descobertas expõem um risco de segurança crítico e ainda não explorado em agentes incorporados baseados em MLLM, ressaltando a necessidade de defesas robustas antes da implantação no mundo real.
À medida que os LLMs assumem um papel cada vez mais importante na sociedade, eles são cada vez mais confrontados com questões que exigem não apenas que recorram ao seu conhecimento geral, mas também que se alinhem a certos sistemas de valores humanos. Portanto, estudar o alinhamento dos LLMs com os valores humanos tornou-se um campo de investigação crucial. No entanto, trabalhos anteriores concentram-se maioritariamente na avaliação do alinhamento de modelos totalmente treinados, negligenciando a dinâmica de treino através da qual os modelos aprendem a expressar valores humanos. Neste trabalho, investigamos como e em que fase o alinhamento de valores surge durante o curso do pós-treino de um modelo. A nossa análise separa os efeitos dos algoritmos e conjuntos de dados de pós-treino, medindo tanto a magnitude como o momento das derivas de valor durante o treino. Ao experimentar com modelos Llama-3 e Qwen-3 de diferentes tamanhos e com conjuntos de dados e algoritmos populares de fine-tuning supervisionado (SFT) e otimização de preferências, descobrimos que a fase de SFT geralmente estabelece os valores de um modelo, e a subsequente otimização de preferências raramente realinha esses valores. Além disso, usando um conjunto de dados de preferências sintético que permite a manipulação controlada de valores, descobrimos que diferentes algoritmos de otimização de preferências levam a resultados de alinhamento de valores diferentes, mesmo quando os dados de preferência são mantidos constantes. As nossas descobertas fornecem perspetivas acionáveis sobre como os valores são aprendidos durante o pós-treino e ajudam a fundamentar a curadoria de dados, bem como a seleção de modelos e algoritmos para otimização de preferências, com o objetivo de melhorar o alinhamento dos modelos com os valores humanos.
Recentemente, o aumento de modelos Visão-Linguagem-Ação (VLAs) com modelagem de mundo tem mostrado potencial para melhorar o aprendizado de políticas robóticas. No entanto, continua sendo um desafio prever conjuntamente as observações do próximo estado e as sequências de ações devido à diferença inerente entre as duas modalidades. Para resolver isso, propomos o DUal-STream diffusion (DUST), uma estrutura VLA aumentada por modelo de mundo que lida com o conflito de modalidades e melhora o desempenho de VLAs em diversas tarefas. Especificamente, propomos uma arquitetura de transformer de difusão multimodal que mantém explicitamente fluxos de modalidade separados, permitindo ainda o compartilhamento de conhecimento cross-modal. Além disso, introduzimos perturbações de ruído independentes para cada modalidade e uma função de perda de correspondência de fluxo desacoplada. Este projeto permite que o modelo aprenda a distribuição conjunta de forma bidirecional, evitando a necessidade de um espaço latente unificado. Com base no desacoplamento de modalidades durante o treinamento, também introduzimos um método de amostragem conjunta que suporta escalonamento em tempo de teste, onde os tokens de ação e visão evoluem de forma assíncrona em taxas diferentes. Por meio de experimentos em benchmarks de simulação como RoboCasa e GR-1, o DUST alcança ganhos de até 6% em relação aos métodos de base, enquanto nossa abordagem de escalonamento em tempo de teste proporciona um aumento adicional de 2-5%. Em tarefas do mundo real com o Franka Research 3, o DUST melhora as taxas de sucesso em 13%, confirmando sua eficácia além da simulação. Além disso, o pré-treinamento em vídeos sem ações do BridgeV2 produz ganhos de transferência significativos no RoboCasa, ressaltando o potencial do DUST para pré-treinamento de VLA em larga escala.
Apresentamos o Denario, um sistema multiagente de IA projetado para atuar como assistente de pesquisa científica. O Denario pode executar diversas tarefas, como gerar ideias, consultar a literatura, desenvolver planos de pesquisa, escrever e executar código, criar gráficos e redigir e revisar artigos científicos. O sistema possui uma arquitetura modular, permitindo-lhe lidar com tarefas específicas, como gerar uma ideia, ou realizar análises científicas de ponta a ponta utilizando o Cmbagent como um *backend* de pesquisa aprofundada. Neste trabalho, descrevemos detalhadamente o Denario e seus módulos, e ilustramos suas capacidades apresentando diversos artigos gerados por IA criados por ele em várias disciplinas científicas, como astrofísica, biologia, biofísica, informática biomédica, química, ciência dos materiais, física matemática, medicina, neurociência e ciência planetária. O Denario também se destaca na combinação de ideias de diferentes disciplinas, e ilustramos isso mostrando um artigo que aplica métodos da física quântica e do aprendizado de máquina a dados astrofísicos. Relatamos as avaliações realizadas nestes artigos por especialistas do domínio, que forneceram tanto pontuações numéricas quanto feedback semelhante ao de revisão por pares. Em seguida, destacamos os pontos fortes, as fraquezas e as limitações do sistema atual. Por fim, discutimos as implicações éticas da pesquisa conduzida por IA e refletimos sobre como essa tecnologia se relaciona com a filosofia da ciência. Disponibilizamos publicamente o código em https://github.com/AstroPilot-AI/Denario. Uma demonstração do Denario também pode ser executada diretamente na web em https://huggingface.co/spaces/astropilot-ai/Denario, e o aplicativo completo será implantado na nuvem.
O raciocínio matemático é um desafio central para os grandes modelos de linguagem (LLMs), exigindo não apenas respostas corretas, mas também processos de raciocínio fiéis. O Reforço de Aprendizagem com Recompensas Verificáveis (RLVR) surgiu como uma abordagem promissora para aprimorar tais capacidades; no entanto, a sua capacidade de promover um raciocínio genuíno permanece pouco clara. Investigamos o RLVR em dois problemas combinatórios com soluções totalmente verificáveis: Agendamento de Atividades e a Subsequência Crescente Mais Longa, utilizando conjuntos de dados criteriosamente curados com ótimos únicos. Através de múltiplos desenhos de recompensa, descobrimos que o RLVR melhora as métricas de avaliação, mas frequentemente ao reforçar heurísticas superficiais em vez de adquirir novas estratégias de raciocínio. Estes resultados destacam os limites da generalização do RLVR, enfatizando a importância de benchmarks que separem o raciocínio matemático genuíno da exploração de atalhos e forneçam medidas fiáveis de progresso. Código disponível em https://github.com/xashru/rlvr-seq-generalization.
Os modelos Visão-Linguagem-Ação (VLAs) representam uma fronteira significativa na inteligência incorporada, visando unir o conhecimento digital com a interação no mundo físico. Embora esses modelos tenham demonstrado capacidades generalistas notáveis, sua implantação é severamente dificultada pelos substanciais requisitos computacionais e de dados inerentes aos seus modelos de base de grande escala subjacentes. Motivados pela necessidade urgente de enfrentar esses desafios, este levantamento apresenta a primeira revisão abrangente dos modelos Eficientes de Visão-Linguagem-Ação (Efficient VLAs) em todo o processo dados-modelo-treinamento. Especificamente, introduzimos uma taxonomia unificada para organizar sistematicamente os esforços díspares neste domínio, categorizando as técnicas atuais em três pilares centrais: (1) Design Eficiente de Modelos, com foco em arquiteturas eficientes e compressão de modelos; (2) Treinamento Eficiente, que reduz os encargos computacionais durante a aprendizagem do modelo; e (3) Coleta Eficiente de Dados, que aborda os gargalos na aquisição e utilização de dados robóticos. Através de uma revisão crítica dos métodos state-of-the-art dentro desta estrutura, este levantamento não apenas estabelece uma referência fundamental para a comunidade, mas também resume aplicações representativas, delineia desafios-chave e traça um roteiro para pesquisas futuras. Mantemos uma página do projeto continuamente atualizada para acompanhar nossos últimos desenvolvimentos: https://evla-survey.github.io/
Os grandes modelos de linguagem (LLMs) estão a remodelar o paradigma dos sistemas de recomendação, permitindo que os utilizadores expressem preferências e recebam recomendações através de conversas. No entanto, alinhar os LLMs com a tarefa de recomendação continua a ser um desafio: os LLMs pré-treinados frequentemente geram itens fora do catálogo, violam formatos de saída exigidos e a sua qualidade de ordenação degrada-se acentuadamente no final da lista gerada. Para tal, propomos o ConvRec-R1, uma estrutura em duas fases para o treino de ponta a ponta de sistemas de recomendação conversacionais baseados em LLM. Na Fase 1, construímos um conjunto de dados de clonagem comportamental com um pipeline Remapear-Refletir-Ajustar, que produz demonstrações de alta qualidade e fundamentadas no catálogo a partir de LLMs blackbox poderosos para aquecer o início do treino de RL. Na Fase 2, propomos o Rank-GRPO, uma extensão fundamentada da otimização de políticas relativas por grupo (GRPO) adaptada a tarefas com saídas do tipo ordenação. O Rank-GRPO trata cada posição na lista de recomendações como unidade, em vez do token (demasiado granular) ou da sequência (demasiado grosseiro), redefinindo as recompensas para remover a atribuição de crédito não causal e introduzindo uma razão de importância ao nível da posição baseada na média geométrica das probabilidades dos tokens por posição para estabilizar as atualizações da política. Experiências no conjunto de dados público Reddit-v2 mostram que o ConvRec-R1 converge mais rapidamente e atinge Recall e NDCG superiores às linhas de base do estilo GRPO. O código e os conjuntos de dados são disponibilizados em https://github.com/yaochenzhu/Rank-GRPO.
Os modelos de texto para imagem (T2I) são cada vez mais utilizados para a geração de conjuntos de dados sintéticos, mas a criação de dados de treino sintéticos eficazes para classificação continua a ser um desafio. O ajuste fino de um modelo T2I com alguns exemplos reais pode ajudar a melhorar a qualidade dos dados de treino sintéticos; no entanto, também pode causar sobreajuste e reduzir a diversidade nas amostras geradas. Propomos uma estratégia de ajuste fino, BOB (BeyondOBjects), para mitigar estas preocupações na classificação de granularidade fina. Dado um pequeno conjunto de exemplos reais, começamos por extrair atributos agnósticos de classe, como o cenário de fundo e a pose do objeto. Em seguida, condicionamos explicitamente o ajuste fino do modelo T2I a estes atributos e marginalizamo-los durante a geração. Este projeto mitiga o sobreajuste, preserva o prior generativo do modelo T2I, reduz erros de estimativa e minimiza ainda mais associações interclasse não intencionais. Experiências extensas em vários modelos T2I, arquiteturas base e conjuntos de dados mostram que o nosso método alcança um desempenho de ponta na classificação de granularidade fina com poucos exemplos quando aumentado com dados sintéticos. Concretamente, o BOB supera o DataDream em 7,4% no conjunto de dados Aircraft (de 50,0% para 57,4% ao ajustar um classificador CLIP com cinco imagens reais aumentadas com 100 imagens sintéticas). Em três dos quatro benchmarks, o ajuste fino de modelos *downstream* com 5 imagens reais aumentadas com o BOB alcança um desempenho superior ao ajuste fino com 10 imagens reais. Coletivamente, o BOB supera o estado da arte em 18 de 24 configurações experimentais, com melhorias de precisão superiores a 2% em 14 dessas configurações.
A segmentação precisa de instâncias de edifícios e a classificação de altura são críticas para o planeamento urbano, modelação 3D de cidades e monitorização de infraestruturas. Este artigo apresenta uma análise detalhada do YOLOv11, o avanço recente na série de modelos de aprendizagem profunda YOLO, focando na sua aplicação para extração conjunta de edifícios e classificação discreta de altura a partir de imagens de satélite. O YOLOv11 baseia-se nos pontos fortes dos modelos YOLO anteriores, introduzindo uma arquitetura mais eficiente que combina melhor características em diferentes escalas, melhora a precisão da localização de objetos e aumenta o desempenho em cenas urbanas complexas. Utilizando o conjunto de dados DFC2023 Track 2 – que inclui mais de 125.000 edifícios anotados em 12 cidades – avaliamos o desempenho do YOLOv11 usando métricas como precisão, recall, pontuação F1 e precisão média média (mAP). Os nossos resultados demonstram que o YOLOv11 alcança um forte desempenho de segmentação de instâncias com 60,4% mAP@50 e 38,3% mAP@50–95, mantendo uma robusta precisão de classificação em cinco níveis de altura predefinidos. O modelo destaca-se no tratamento de oclusões, formas complexas de edifícios e desequilíbrio de classes, particularmente para estruturas raras de grande altura. A análise comparativa confirma que o YOLOv11 supera as arquiteturas multitarefa anteriores tanto na precisão de deteção como na velocidade de inferência, tornando-o adequado para mapeamento urbano em larga escala e em tempo real. Esta pesquisa destaca o potencial do YOLOv11 para avançar a reconstrução urbana semântica através de uma modelação de altura categórica simplificada, oferecendo perspetivas acionáveis para futuros desenvolvimentos em deteção remota e inteligência geoespacial.
A desinformação relacionada à saúde é muito prevalente e potencialmente prejudicial. É difícil de identificar, especialmente quando as alegações distorcem ou interpretam incorretamente descobertas científicas. Investigamos o impacto das técnicas de geração de dados sintéticos e de *fine-tuning* leve na capacidade de modelos de linguagem de grande porte (LLMs) para reconhecer argumentos falaciosos utilizando o conjunto de dados e a estrutura MISSCI. Neste trabalho, propomos o MisSynth, um *pipeline* que aplica a geração aumentada por recuperação (RAG) para produzir amostras sintéticas de falácias, que são então usadas para fazer o *fine-tuning* de um modelo LLM. Nossos resultados mostram ganhos substanciais de precisão com os modelos ajustados em comparação com as linhas de base padrão. Por exemplo, o modelo LLaMA 3.1 8B com *fine-tuning* alcançou uma melhoria absoluta de mais de 35% no F1-score na divisão de teste do MISSCI em relação à sua linha de base padrão. Demonstramos que a introdução de dados sintéticos de falácias para aumentar os recursos anotados limitados pode melhorar significativamente o desempenho de classificação *zero-shot* de LLMs em tarefas de desinformação científica do mundo real, mesmo com recursos computacionais limitados. O código e o conjunto de dados sintéticos estão disponíveis em https://github.com/mxpoliakov/MisSynth.
Os jogos de cartas são amplamente utilizados para estudar a tomada de decisão sequencial sob incerteza, com análogos no mundo real em negociação, finanças e cibersegurança. Esses jogos geralmente se enquadram em três categorias com base no fluxo de controle: estritamente sequencial (os jogadores alternam ações individuais), resposta determinística (algumas ações desencadeiam um resultado fixo) e resposta recíproca ilimitada (contrajogadas alternadas são permitidas). Uma estrutura menos explorada, mas estrategicamente rica, é a da resposta unilateral limitada, na qual uma ação de um jogador transfere brevemente o controle para o oponente, que deve satisfazer uma condição fixa por meio de uma ou mais jogadas antes que o turno seja resolvido. Denominamos os jogos que apresentam esse mecanismo de Jogos de Resposta Unilateral Limitada (BORGs, do inglês). Apresentamos uma versão modificada do Monopoly Deal como um ambiente de referência que isola essa dinâmica, na qual uma ação de Aluguel força o oponente a escolher ativos para pagamento. O algoritmo considerado estado da arte, Minimização de Arrependimento Contrafactual (CFR, do inglês), converge para estratégias eficazes sem a necessidade de novas extensões algorítmicas. Uma plataforma de pesquisa full-stack leve unifica o ambiente, um tempo de execução CFR paralelizado e uma interface web jogável por humanos. O agente CFR treinado e o código-fonte estão disponíveis em https://monopolydeal.ai.