Artigos de pesquisa em IA selecionados diariamente com traduções
A diversidade dos dados de pós-treinamento é crucial para um desempenho eficaz em tarefas subsequentes em modelos de linguagem de grande escala (LLMs). Muitas abordagens existentes para a construção desses dados quantificam a diversidade usando métricas baseadas em texto que capturam a variação linguística, mas tais métricas fornecem apenas sinais fracos para as características relevantes à tarefa que determinam o desempenho final. Neste trabalho, introduzimos a Cobertura de Ativação de Características (FAC), que mede a diversidade dos dados em um espaço de características interpretável. Com base nesta métrica, propomos ainda uma estrutura de síntese de dados orientada pela diversidade, denominada FAC Synthesis, que primeiro usa um autoencoder esparso para identificar características em falta a partir de um conjunto de dados inicial e, em seguida, gera amostras sintéticas que refletem explicitamente essas características. Os experimentos mostram que a nossa abordagem melhora consistentemente tanto a diversidade dos dados como o desempenho em várias tarefas, incluindo seguimento de instruções, deteção de toxicidade, modelação de recompensa e orientação de comportamento. Curiosamente, identificamos um espaço de características interpretável partilhado entre famílias de modelos (ou seja, LLaMA, Mistral e Qwen), permitindo a transferência de conhecimento entre modelos. O nosso trabalho fornece uma metodologia sólida e prática para explorar a otimização de LLMs centrada nos dados.
A recuperação por consulta falada é um modo de interação importante nos sistemas modernos de recuperação de informação. No entanto, os conjuntos de dados de avaliação existentes estão frequentemente limitados a consultas simples sob condições de ruído controladas, tornando-os inadequados para avaliar a robustez dos sistemas de recuperação por consulta falada sob perturbações acústicas complexas. Para colmatar esta limitação, apresentamos o SQuTR, um benchmark de robustez para recuperação por consulta falada que inclui um conjunto de dados de larga escala e um protocolo de avaliação unificado. O SQuTR agrega 37.317 consultas únicas de seis conjuntos de dados de recuperação de texto em inglês e chinês comumente utilizados, abrangendo múltiplos domínios e tipos de consulta diversos. Sintetizamos a fala utilizando perfis vocais de 200 falantes reais e misturamos 17 categorias de ruído ambiental do mundo real sob níveis de SNR controlados, permitindo uma avaliação de robustez reproduzível desde condições silenciosas até altamente ruidosas. Sob o protocolo unificado, realizamos avaliações em larga escala em sistemas de recuperação em cascata e de ponta a ponta representativos. Os resultados experimentais mostram que o desempenho da recuperação diminui à medida que o ruído aumenta, com quedas substancialmente diferentes entre os sistemas. Até mesmo modelos de recuperação de larga escala têm dificuldades sob ruído extremo, indicando que a robustez permanece um estrangulamento crítico. No geral, o SQuTR fornece um ambiente de teste reproduzível para benchmarking e análise de diagnóstico, e facilita futuras investigações sobre robustez na recuperação de texto por consulta falada.
Apresentamos o MedXIAOHE, um modelo de base de visão e linguagem médica concebido para avançar a compreensão e o raciocínio médico de propósito geral em aplicações clínicas do mundo real. O MedXIAOHE alcança um desempenho de última geração em diversas referências médicas e supera os principais sistemas multimodais de código fechado em múltiplas capacidades. Para tal, propomos uma estrutura de pré-treinamento contínuo com consciência de entidades que organiza corpora médicos heterogéneos para ampliar a cobertura de conhecimento e reduzir lacunas de cauda longa (por exemplo, doenças raras). Para um raciocínio e interação ao nível de peritos médicos, o MedXIAOHE incorpora diversos padrões de raciocínio médico através de aprendizagem por reforço e treino de agentes aumentados por ferramentas, permitindo um raciocínio diagnóstico multi-etapas com traços de decisão verificáveis. Para melhorar a fiabilidade na utilização do mundo real, o MedXIAOHE integra rubricas de preferência do utilizador, raciocínio baseado em evidências e geração de relatórios longos com baixa alucinação, com uma melhor adesão a instruções médicas. Divulgamos este relatório para documentar as nossas escolhas de design prático, perspetivas de escalabilidade e estrutura de avaliação, na esperança de inspirar mais investigação.
Os Modelos de Linguagem Grande Multimodais (MLLMs) destacam-se na compreensão visual ampla, mas ainda lutam com a perceção de pormenor, onde a evidência decisiva é pequena e facilmente ofuscada pelo contexto global. Métodos recentes de "Pensar com Imagens" atenuam isto ao ampliar e reduzir iterativamente as regiões de interesse durante a inferência, mas incorrem em alta latência devido a chamadas repetidas de ferramentas e re-codificação visual. Para resolver isto, propomos a Destilação de Região para Imagem, que transforma a ampliação de uma ferramenta de inferência num primitivo de treino, internalizando assim os benefícios da ampliação agentica num único *forward pass* de um MLLM. Especificamente, começamos por ampliar regiões micro-recortadas para permitir que modelos professores fortes gerem dados de VQA de alta qualidade, e depois destilamos esta supervisão baseada em regiões de volta para a imagem completa. Após o treino com tais dados, o modelo estudante menor melhora a perceção de pormenor de "um único olhar" sem uso de ferramentas. Para avaliar rigorosamente esta capacidade, apresentamos ainda o ZoomBench, um *benchmark* híbrido-annotado com 845 dados de VQA abrangendo seis dimensões perceptivas de pormenor, juntamente com um protocolo de visão dupla que quantifica o "hiato de ampliação" global-regional. Experiências mostram que os nossos modelos alcançam desempenho líder em vários *benchmarks* de perceção de pormenor, e também melhoram a cognição multimodal geral em *benchmarks* como raciocínio visual e agentes de interface gráfica. Discutimos ainda quando o "Pensar com Imagens" é necessário versus quando os seus ganhos podem ser destilados num único *forward pass*. O nosso código está disponível em https://github.com/inclusionAI/Zooming-without-Zooming.
A compreensão universal de vídeo requer a modelagem de informações visuais e sonoras refinadas ao longo do tempo em diversos cenários do mundo real. No entanto, o desempenho dos modelos existentes é limitado principalmente por dados de instrução em vídeo que representam conteúdos audiovisuais complexos como descrições únicas e incompletas, carecendo de organização refinada e anotação confiável. Para resolver isso, introduzimos: (i) ASID-1M, uma coleção de código aberto com um milhão de anotações de instrução audiovisual estruturadas e refinadas, com supervisão de atributos únicos e múltiplos; (ii) ASID-Verify, um *pipeline* escalável de curadoria de dados para anotação, com verificação e refinamento automáticos que impõem consistência semântica e temporal entre as descrições e o conteúdo audiovisual correspondente; e (iii) ASID-Captioner, um modelo de compreensão de vídeo treinado via Ajuste Fino Supervisionado (*Supervised Fine-Tuning - SFT*) no ASID-1M. Experimentos em sete *benchmarks* abrangendo legendagem audiovisual, legendagem por atributo, Q&A baseado em legendas e localização temporal baseada em legendas mostram que o ASID-Captioner melhora a qualidade da legendagem refinada, reduzindo alucinações e melhorando o seguimento de instruções. Ele alcança desempenho de ponta entre os modelos de código aberto e é competitivo com o Gemini-3-Pro.
Hipótese. A inteligência artificial geral é, em sua essência, um problema de compressão. A compressão eficaz exige ressonância: o aprendizado profundo escala melhor quando sua arquitetura está alinhada com a estrutura fundamental dos dados. Estes são os princípios fundamentais. No entanto, as arquiteturas visuais modernas se afastaram dessas verdades: os sinais visuais são altamente redundantes, enquanto a informação discriminativa, a surpresa, é esparsa. Os modelos atuais processam grades densas de pixels de maneira uniforme, desperdiçando enorme poder computacional em fundos estáticos em vez de se concentrarem nos resíduos preditivos que definem o movimento e o significado. Argumentamos que, para resolver a compreensão visual, devemos alinhar nossas arquiteturas com os princípios da teoria da informação do vídeo, ou seja, os Codecs. Método. O OneVision-Encoder codifica vídeo comprimindo a estrutura visual preditiva em significado semântico. Ao adotar a *Codec Patchification*, o OV-Encoder abandona o cálculo uniforme para focar exclusivamente nos 3,1% a 25% das regiões ricas em entropia de sinal. Para unificar o raciocínio espacial e temporal sob layouts de tokens irregulares, o OneVision-Encoder emprega um 3D RoPE compartilhado e é treinado com um objetivo de discriminação de clusters em larga escala sobre mais de um milhão de conceitos semânticos, capturando conjuntamente a permanência do objeto e a dinâmica do movimento. Evidências. Os resultados validam nossa hipótese central: eficiência e precisão não são uma compensação (*trade-off*); elas estão positivamente correlacionadas. Quando integrado a um LLM, ele supera consistentemente *backbones* visuais robustos, como Qwen3-ViT e SigLIP2, em 16 benchmarks de compreensão de imagem, vídeo e documento, apesar de usar substancialmente menos tokens visuais e dados de pré-treinamento. Notavelmente, em tarefas de compreensão de vídeo, o OV-Encoder alcança uma melhoria média de 4,1% em relação ao Qwen3-ViT. A esparsidade no nível de *patches* alinhada com codecs é um princípio fundamental, permitindo que o OV-Encoder atue como um motor escalável para a próxima geração de modelos visuais generalistas.
Os Modelos de Linguagem de Vídeo (VideoLMs) capacitam sistemas de IA para compreender a dinâmica temporal em vídeos. Para se adequarem à restrição do tamanho máximo do contexto, os métodos atuais utilizam amostragem de quadros-chave, o que pode omitir tanto eventos de nível macro quanto detalhes de nível micro devido à cobertura temporal esparsa. Além disso, o processamento de imagens completas e dos seus *tokens* para cada quadro acarreta uma sobrecarga computacional substancial. Para superar estas limitações, propomos a utilização de primitivas de codec de vídeo (especificamente vetores de movimento e resíduos) que codificam nativamente a redundância e a esparsidade do vídeo, sem exigir a codificação dispendiosa da imagem completa para a maioria dos quadros. Para tal, introduzimos codificadores leves baseados em *transformers* que agregam as primitivas do codec e alinham as suas representações com os *embeddings* do codificador de imagem através de uma estratégia de pré-treinamento que acelera a convergência durante o ajuste fino de ponta a ponta. A nossa abordagem reduz o tempo até o primeiro *token* em até 86% e a utilização de *tokens* em até 93% em comparação com os VideoLMs padrão. Além disso, ao variar as densidades de quadros-chave e primitivas de codec, conseguimos manter ou superar o desempenho em 14 benchmarks diversos de compreensão de vídeo, abrangendo questionamento geral, raciocínio temporal, compreensão de longa duração e compreensão espacial de cenas.
A recuperação de vídeos com base no movimento semântico é um problema fundamental, mas ainda não resolvido. As abordagens existentes de representação de vídeo dependem excessivamente da aparência estática e do contexto da cena, em vez da dinâmica do movimento, um viés herdado dos seus dados e objetivos de treinamento. Por outro lado, entradas tradicionais centradas no movimento, como o fluxo óptico, carecem da fundamentação semântica necessária para compreender o movimento de alto nível. Para demonstrar este viés inerente, introduzimos os benchmarks SimMotion, que combinam dados sintéticos controlados com um novo conjunto de dados do mundo real anotado manualmente. Mostramos que os modelos existentes têm um desempenho fraco nestes benchmarks, frequentemente falhando em separar o movimento da aparência. Para colmatar esta lacuna, propomos o SemanticMoments, um método simples e livre de treinamento que calcula estatísticas temporais (especificamente, momentos de ordem superior) sobre *features* de modelos semânticos pré-treinados. Nos nossos benchmarks, o SemanticMoments supera consistentemente os métodos existentes baseados em RGB, fluxo óptico e supervisão por texto. Isto demonstra que as estatísticas temporais num espaço de *features* semântico fornecem uma base escalável e perceptualmente fundamentada para a compreensão de vídeo centrada no movimento.
Este artigo apresenta o GeoAgent, um modelo capaz de raciocinar de forma próxima aos humanos e derivar conclusões de endereços de granularidade fina. Métodos anteriores baseados em Aprendizado por Reforço (RL) alcançaram avanços em desempenho e interpretabilidade, mas permanecem preocupações devido à sua dependência de dados de cadeia de pensamento (CoT) gerados por IA e estratégias de treinamento que conflitam com as características geográficas. Para resolver essas questões, introduzimos primeiro o GeoSeek, um novo conjunto de dados de geolocalização composto por dados CoT anotados por especialistas em geografia e jogadores profissionais. Exploramos ainda minuciosamente as características inerentes das tarefas geográficas e propomos uma recompensa de similaridade geográfica e uma recompensa de consistência avaliada por um agente de consistência para auxiliar no treinamento. Isso incentiva o modelo a convergir para respostas corretas a partir de uma perspectiva geográfica, garantindo ao mesmo tempo a integridade e a consistência de seu processo de raciocínio. Resultados experimentais mostram que o GeoAgent supera os métodos existentes e uma série de Modelos de Linguagem Visual de Grande Escala (VLLMs) gerais em múltiplas granularidades, gerando ao mesmo tempo um raciocínio que se alinha estreitamente com o humano.
O aprendizado por reforço (RL) com recompensas verificáveis tornou-se uma etapa padrão de pós-treinamento para impulsionar o raciocínio visual em modelos visão-linguagem, mas ainda não está claro quais capacidades o RL realmente melhora em comparação com o ajuste fino supervisionado como inicialização de partida a frio (IN). Ganhos em benchmarks de ponta a ponta combinam múltiplos fatores, dificultando a atribuição de melhorias a habilidades específicas. Para preencher essa lacuna, propomos uma estrutura de análise estilo Frankenstein incluindo: (i) localização funcional por meio de sondagem causal; (ii) caracterização de atualização por comparação de parâmetros; e (iii) teste de transferibilidade via fusão de modelos. Em vez disso, o RL induz uma mudança consistente no tempo de inferência principalmente em camadas intermediárias e finais, e esses refinamentos de meio a final são tanto transferíveis (via fusão) quanto necessários (via congelamento) para os ganhos do RL. No geral, nossos resultados sugerem que a contribuição confiável do RL no raciocínio visual não é um aprimoramento uniforme da percepção visual, mas um refinamento sistemático da computação em transformadores de meio a final que melhora o alinhamento visão-raciocínio e o desempenho do raciocínio, destacando as limitações da avaliação baseada apenas em benchmarks para compreender melhorias no raciocínio multimodal.
Os agentes de IA são capazes de enfrentar tarefas cada vez mais complexas. Para alcançar objetivos mais ambiciosos, estes agentes precisam decompor problemas significativamente em subcomponentes gerenciáveis e delegar sua conclusão com segurança a outros agentes de IA e também a humanos. No entanto, os métodos existentes de decomposição e delegação de tarefas baseiam-se em heurísticas simples e não conseguem adaptar-se dinamicamente a mudanças ambientais nem lidar robustamente com falhas inesperadas. Aqui propomos uma estrutura adaptativa para delegação inteligente de IA - uma sequência de decisões envolvendo alocação de tarefas, que também incorpora transferência de autoridade, responsabilidade, prestação de contas, especificações claras sobre funções e limites, clareza de intenção e mecanismos para estabelecer confiança entre as duas (ou mais) partes. A estrutura proposta é aplicável tanto a delegantes humanos quanto de IA, bem como a delegados em redes complexas de delegação, visando orientar o desenvolvimento de protocolos na emergente teia agentiva.
A construção de agentes corporificados de propósito geral em hardwares diversos permanece um desafio central na robótica, frequentemente enquadrado como o paradigma "um-cérebro, múltiplas-formas". O progresso é dificultado por dados fragmentados, representações inconsistentes e objetivos de treinamento desalinhados. Apresentamos o ABot-M0, uma estrutura que constrói um *pipeline* sistemático de curadoria de dados enquanto otimiza conjuntamente a arquitetura do modelo e as estratégias de treinamento, permitindo a transformação de ponta a ponta de dados brutos heterogêneos em representações unificadas e eficientes. A partir de seis conjuntos de dados públicos, limpamos, padronizamos e balanceamos amostras para construir o UniACT-dataset, um conjunto de dados em larga escala com mais de 6 milhões de trajetórias e 9.500 horas de dados, abrangendo diversas morfologias de robôs e cenários de tarefas. O pré-treinamento unificado melhora a transferência de conhecimento e a generalização entre plataformas e tarefas, apoiando a inteligência corporificada de propósito geral. Para melhorar a eficiência e estabilidade da previsão de ações, propomos a Hipótese da Variedade de Ações: as ações efetivas do robô residem não no espaço completo de alta dimensão, mas em uma variedade de baixa dimensão, suave, regida por leis físicas e restrições da tarefa. Com base nisso, introduzimos o Aprendizado da Variedade de Ações (AML), que usa uma espinha dorsal DiT para prever sequências de ações limpas e contínuas diretamente. Isso desloca o aprendizado da remoção de ruído para a projeção em variedades viáveis, melhorando a velocidade de decodificação e a estabilidade da política. O ABot-M0 suporta percepção modular via um mecanismo de fluxo duplo que integra semântica de VLM com *priors* geométricos e entradas multi-visão de módulos 3D *plug-and-play*, como VGGT e Qwen-Image-Edit, aprimorando a compreensão espacial sem modificar a espinha dorsal e mitigando as limitações padrão dos VLMs no raciocínio 3D. Experimentos mostram que os componentes operam de forma independente com benefícios aditivos. Liberaremos todo o código e *pipelines* para reprodutibilidade e pesquisas futuras.
A simulação oferece uma forma escalável e de baixo custo para enriquecer o treinamento visão-linguagem-ação (VLA), reduzindo a dependência de demonstrações caras com robôs reais. No entanto, a maioria dos métodos de co-treinamento sim-real baseia-se no ajuste fino supervisionado (SFT), que trata a simulação como uma fonte estática de demonstrações e não explora a interação em *loop fechado* em larga escala. Consequentemente, os ganhos no mundo real e a generalização são frequentemente limitados. Neste artigo, propomos uma estrutura de \textit{Co}-treinamento sim-real baseada em \textit{RL} (RL-Co) que aproveita a simulação interativa enquanto preserva as capacidades no mundo real. Nosso método segue um design genérico de dois estágios: primeiro, iniciamos o aquecimento da política com SFT em uma mistura de demonstrações reais e simuladas e, em seguida, ajustamos a política com aprendizado por reforço na simulação, adicionando uma perda supervisionada auxiliar sobre dados do mundo real para ancorar a política e mitigar o esquecimento catastrófico. Avaliamos nossa estrutura em quatro tarefas de manipulação em mesa do mundo real usando duas arquiteturas VLA representativas, OpenVLA e π_{0,5}, e observamos melhorias consistentes em relação ao ajuste fino apenas com dados reais e ao co-treinamento baseado em SFT, incluindo +24% de sucesso no mundo real com OpenVLA e +20% com π_{0,5}. Além de maiores taxas de sucesso, o co-treinamento com RL produz uma generalização mais forte para variações de tarefas não vistas e uma eficiência de dados do mundo real substancialmente melhorada, fornecendo um caminho prático e escalável para aproveitar a simulação e aprimorar a implantação de robôs reais.
A inferência de modelos de linguagem de grande escala (LLM) é frequentemente limitada pela pegada de memória e pela largura de banda de memória em implantações com recursos restritos, tornando a quantização uma técnica fundamental para um serviço eficiente. Embora a quantização pós-treinamento (PTQ) mantenha alta fidelidade em 4 bits, ela se deteriora em 2-3 bits. Fundamentalmente, os métodos existentes impõem uma grade de quantização invariante em forma (por exemplo, os intervalos uniformes fixos de UINT2) para cada grupo, restringindo severamente o conjunto viável para minimização de erro. Para resolver isso, propomos a Quantização por Decomposição em Planos de Bits (BPDQ), que constrói uma grade de quantização variável por meio de planos de bits e coeficientes escalares, e os refina iterativamente usando informações aproximadas de segunda ordem enquanto compensa progressivamente os erros de quantização para minimizar a discrepância na saída. No regime de 2 bits, o BPDQ permite servir o Qwen2.5-72B em uma única RTX 3090 com 83,85% de precisão no GSM8K (vs. 90,83% em 16 bits). Além disso, fornecemos uma análise teórica mostrando que a grade variável expande o conjunto viável e que o processo de quantização se alinha consistentemente com o objetivo de otimização na geometria induzida pela Hessiana. Código: github.com/KingdalfGoodman/BPDQ.
Neste relatório, apresentamos o Xiaomi-Robotics-0, um modelo avançado de visão-linguagem-ação (VLA) otimizado para alto desempenho e execução rápida e suave em tempo real. A chave do nosso método reside em uma receita de treinamento e uma estratégia de implantação cuidadosamente projetadas. O Xiaomi-Robotics-0 é primeiro pré-treinado em trajetórias robóticas de grande escala com diferentes embodimentos e dados visão-linguagem, dotando-o de capacidades amplas e generalizáveis de geração de ações, evitando ao mesmo tempo o esquecimento catastrófico do conhecimento visual-semântico do modelo de linguagem visual (VLM) pré-treinado subjacente. Durante o pós-treinamento, propomos várias técnicas para treinar o modelo VLA para execução assíncrona, a fim de abordar a latência de inferência durante a execução em robôs reais. Durante a implantação, alinhamos cuidadosamente os intervalos de tempo de fragmentos de ação previstos consecutivos para garantir execuções contínuas e perfeitas em tempo real. Avaliamos o Xiaomi-Robotics-0 extensivamente em benchmarks de simulação e em duas tarefas desafiadoras com robôs reais que exigem manipulação bimanual precisa e hábil. Os resultados mostram que nosso método alcança desempenho de ponta em todos os benchmarks de simulação. Além disso, o Xiaomi-Robotics-0 pode ser executado de forma rápida e suave em robôs reais usando uma GPU de nível consumer, atingindo altas taxas de sucesso e throughput em ambas as tarefas com robôs reais. Para facilitar pesquisas futuras, o código e os pontos de verificação do modelo são de código aberto em https://xiaomi-robotics-0.github.io.
Os modelos de linguagem de grande escala por difusão (dLLMs) surgiram como uma alternativa atraente aos LLMs autorregressivos (AR), devido à sua capacidade de geração paralela de tokens. Este paradigma é particularmente adequado para a geração de código, onde o planeamento estrutural holístico e o refinamento não sequencial são críticos. Apesar deste potencial, a adaptação de dLLMs para a geração de *kernels* CUDA permanece um desafio, obstruída não só pela alta especialização, mas também pela severa carência de dados de treino de alta qualidade. Para enfrentar estes desafios, construímos o CuKe, um conjunto de dados aumentado de *fine-tuning* supervisionado otimizado para *kernels* CUDA de alto desempenho. Com base nele, propomos uma estrutura de aprendizagem por reforço com curadoria bifásica (BiC-RL), consistindo numa fase de preenchimento (*infilling*) de *kernels* CUDA e numa fase de geração de *kernels* CUDA de ponta a ponta. Aproveitando esta estrutura de treino, introduzimos o DICE, uma série de modelos de linguagem de grande escala por difusão concebidos para a geração de *kernels* CUDA, abrangendo três escalas de parâmetros: 1,7B, 4B e 8B. Experiências extensivas no KernelBench demonstram que o DICE supera significativamente tanto os LLMs autorregressivos como os de difusão de escala comparável, estabelecendo um novo estado da arte para a geração de *kernels* CUDA.
O raciocínio científico exige inerentemente a integração de conjuntos de ferramentas sofisticados para navegar em conhecimentos específicos de domínio. No entanto, os benchmarks atuais ignoram em grande parte a capacidade dos agentes de orquestrar ferramentas para fluxos de trabalho tão rigorosos. Para preencher esta lacuna, apresentamos o SciAgentGym, um ambiente interativo e escalável que apresenta 1.780 ferramentas específicas de domínio em quatro disciplinas das ciências naturais, apoiado por uma infraestrutura de execução robusta. Complementando isto, apresentamos o SciAgentBench, um conjunto de avaliação hierárquico concebido para testar rigorosamente as capacidades dos agentes, desde ações elementares até fluxos de trabalho de longo horizonte. A nossa avaliação identifica um estrangulamento crítico: os modelos state-of-the-art têm dificuldades com a utilização complexa de ferramentas científicas. Mesmo para um modelo líder como o GPT-5, as taxas de sucesso caem drasticamente de 60,6% para 30,9% à medida que os horizontes de interação se estendem, principalmente devido a falhas na execução de fluxos de trabalho multi-etapa. Para resolver isto, propomos o SciForge, um método de síntese de dados que modela o espaço de ação das ferramentas como um grafo de dependências para gerar trajetórias de treino conscientes da lógica. Ao realizar fine-tuning nestas trajetórias, o nosso SciAgent-8B supera o significativamente maior Qwen3-VL-235B-Instruct, exibindo ao mesmo tempo uma transferência positiva e transversal a domínios das capacidades de utilização de ferramentas científicas. Estes resultados sublinham o potencial promissor dos agentes científicos autónomos de próxima geração.
Propomos o UniDFlow, uma estrutura unificada de correspondência de fluxo discreto para compreensão, geração e edição multimodal. Ele desacopla a compreensão e a geração por meio de adaptadores de baixo custo específicos para cada tarefa, evitando interferência de objetivos e emaranhamento de representações, enquanto um novo alinhamento de preferência multimodal baseado em referência otimiza resultados relativos sob condicionamento idêntico, melhorando a fidelidade e a controlabilidade sem retreinamento em larga escala. O UniDFlow alcança desempenho de última geração em oito benchmarks e exibe forte generalização de zero-shot para tarefas incluindo preenchimento, geração de imagens em contexto, edição baseada em referência e geração composicional, apesar de não ter treinamento explícito específico para tarefas.
Os Grandes Modelos de Linguagem (LLMs) representam uma fronteira promissora para os sistemas de recomendação, contudo, o seu desenvolvimento tem sido impedido pela ausência de leis de escalonamento previsíveis, as quais são cruciais para orientar a investigação e otimizar a alocação de recursos. Colocamos a hipótese de que isto pode ser atribuído ao ruído intrínseco, ao viés e à incompletude dos dados brutos de interação do usuário em esforços anteriores de pré-treinamento contínuo (CPT). Este artigo introduz uma nova estrutura em camadas para gerar dados sintéticos de alta qualidade que contorna tais problemas através da criação de um currículo pedagógico e curado para o LLM. Fornecemos evidências poderosas e diretas da utilidade do nosso currículo, demonstrando que modelos sequenciais padrão treinados com os nossos dados sintéticos fundamentados superam significativamente (+130% em recall@100 para o SasRec) os modelos treinados com dados reais em tarefas de ranking subsequentes, demonstrando a sua superioridade para aprender padrões de preferência do usuário generalizáveis. Com base nisto, demonstramos empiricamente, pela primeira vez, um robusto escalonamento de lei de potência para um LLM que é continuamente pré-treinado com os nossos dados de alta qualidade e específicos para recomendação. As nossas experiências revelam uma redução de perplexidade consistente e previsível em múltiplas modalidades de dados sintéticos. Estas descobertas estabelecem uma metodologia fundamental para escalar de forma confiável as capacidades dos LLMs no domínio da recomendação, deslocando assim o foco da investigação da mitigação de deficiências de dados para a utilização de informações estruturadas e de alta qualidade.
Os métodos tradicionais para automatizar o projeto de sistemas de recomendação, como a Busca por Arquitetura Neural (NAS), frequentemente são limitados por um espaço de busca fixo definido por prévias humanas, restringindo a inovação a operadores predefinidos. Embora estruturas recentes de evolução de código baseadas em LLM mudem o alvo do espaço de busca fixo para espaços de programa abertos, elas dependem principalmente de métricas escalares (por exemplo, NDCG, Taxa de Acerto) que falham em fornecer insights qualitativos sobre falhas do modelo ou orientação direcional para melhorias. Para resolver isso, propomos o Self-EvolveRec, uma estrutura inovadora que estabelece um ciclo de feedback direcional integrando um Simulador de Usuário para críticas qualitativas e uma Ferramenta de Diagnóstico de Modelo para verificação interna quantitativa. Além disso, introduzimos uma estratégia de Coevolução Modelo-Ferramenta de Diagnóstico para garantir que os critérios de avaliação se adaptem dinamicamente à medida que a arquitetura de recomendação evolui. Experimentos extensivos demonstram que o Self-EvolveRec supera significativamente as bases de comparação state-of-the-art de NAS e de evolução de código baseada em LLM, tanto no desempenho de recomendação quanto na satisfação do usuário. Nosso código está disponível em https://github.com/Sein-Kim/self_evolverec.
A obtenção de inteligência espacial exige ir além da plausibilidade visual para construir simuladores de mundo fundamentados nas leis físicas. Embora os LLMs de codificação tenham avançado na geração estática de cenas 3D, estender este paradigma para a dinâmica 4D permanece uma fronteira crítica. Esta tarefa apresenta dois desafios fundamentais: o emaranhamento contextual multi-escala, onde a geração monolítica falha em equilibrar estruturas locais de objetos com layouts ambientais globais; e uma lacuna de execução semântico-física, onde a geração de código em malha aberta leva a alucinações físicas carentes de fidelidade dinâmica. Apresentamos o Code2Worlds, uma estrutura que formula a geração 4D como uma geração de código de linguagem para simulação. Primeiro, propomos uma arquitetura de fluxo duplo que desembaraça a geração de objetos aumentada por recuperação da orquestração ambiental hierárquica. Segundo, para garantir fidelidade dinâmica, estabelecemos um mecanismo de malha fechada com consciência física no qual um Agente de Pós-Processamento cria scripts de dinâmica, acoplado a um Crítico de Movimento VLM que realiza autorreflexão para refinar iterativamente o código de simulação. Avaliações no benchmark Code4D mostram que o Code2Worlds supera as linhas de base com um ganho de 41% no SGS e 49% maior Riqueza, enquanto gera de forma única dinâmicas com consciência física ausentes em métodos estáticos anteriores. Código: https://github.com/AIGeeksGroup/Code2Worlds. Website: https://aigeeksgroup.github.io/Code2Worlds.
Políticas generativas iterativas, como os modelos de difusão e *flow matching*, oferecem uma expressividade superior para o controle contínuo, mas complicam o Aprendizado por Reforço de Entropia Máxima porque as log-densidades de suas ações não são diretamente acessíveis. Para resolver isso, propomos o *Field Least-Energy Actor-Critic* (FLAC), uma estrutura *likelihood-free* que regula a estocasticidade da política penalizando a energia cinética do campo de velocidade. Nossa principal percepção é formular a otimização da política como um problema de Ponte de Schrödinger Generalizada (PSG) relativo a um processo de referência de alta entropia (por exemplo, uniforme). Sob essa perspectiva, o princípio de entropia máxima surge naturalmente como permanecer próximo a uma referência de alta entropia enquanto otimiza o retorno, sem exigir densidades de ação explícitas. Nesta estrutura, a energia cinética serve como um *proxy* fisicamente fundamentado para a divergência da referência: minimizar a energia no espaço de caminhos limita o desvio da distribuição de ação terminal induzida. Com base nessa visão, derivamos um esquema de iteração de política com regularização de energia e um algoritmo prático *off-policy* que sintoniza automaticamente a energia cinética por meio de um mecanismo dual Lagrangiano. Empiricamente, o FLAC alcança desempenho superior ou comparável em benchmarks de alta dimensionalidade em relação a *baselines* fortes, evitando ao mesmo tempo a estimação de densidade explícita.
A afinação por aprendizagem por reforço (RL) tornou-se uma técnica fundamental para melhorar modelos de linguagem grandes (LLMs) em tarefas que exigem raciocínio intensivo, motivando a sua extensão a modelos de visão e linguagem (VLMs). Embora os VLMs afinados com RL apresentem melhorias em benchmarks de raciocínio visual, eles permanecem vulneráveis a um fraco grounding visual, alucinações e excessiva dependência de pistas textuais. Demonstramos que perturbações textuais simples e controladas – legendas enganosas ou traços incorretos de pensamento em cadeia (CoT) – causam quedas substanciais na robustez e na confiança, e que estes efeitos são mais pronunciados quando a consistência do CoT é considerada em modelos de raciocínio multimodal de código aberto. Métricas baseadas em entropia mostram ainda que estas perturbações remodeiam a incerteza do modelo e a massa de probabilidade na opção correta, expondo tendências específicas de cada modelo em termos de má calibração. Para melhor compreender estas vulnerabilidades, analisámos ainda a dinâmica de afinação por RL e descobrimos um compromisso (trade-off) entre precisão e fidelidade: a afinação aumenta a precisão nos benchmarks, mas pode simultaneamente corroer a fiabilidade do CoT que a acompanha e a sua robustez a mudanças contextuais. Embora a aumento adversarial melhore a robustez, por si só não impede a deriva na fidelidade. Incorporar uma recompensa sensível à fidelidade pode restaurar o alinhamento entre respostas e raciocínio, mas, quando combinada com aumento, o treino arrisca colapsar em estratégias de atalho e a robustez permanece elusiva. Em conjunto, estes resultados destacam as limitações das avaliações baseadas apenas na precisão e motivam protocolos de treino e avaliação que enfatizem conjuntamente a correção, a robustez e a fidelidade do raciocínio com grounding visual.
Avances recentes em modelos generativos baseados em difusão estabeleceram um novo paradigma para a reiluminação de imagens e vídeos. No entanto, estender essas capacidades para a reiluminação 4D permanece um desafio, principalmente devido à escassez de dados de treinamento pareados para reiluminação 4D e à dificuldade de manter a consistência temporal através de pontos de vista extremos. Neste trabalho, propomos o Light4D, uma nova estrutura livre de treinamento projetada para sintetizar vídeos 4D consistentes sob iluminação alvo, mesmo sob mudanças extremas de ponto de vista. Primeiro, introduzimos a Orientação por Fluxo Desacoplado, uma estratégia consciente do tempo que injeta eficazmente controle de iluminação no espaço latente, preservando a integridade geométrica. Segundo, para reforçar a consistência temporal, desenvolvemos a Atenção Temporalmente Consistente dentro da arquitetura IC-Light e incorporamos ainda a regularização determinística para eliminar cintilações de aparência. Experimentos extensivos demonstram que nosso método alcança desempenho competitivo em consistência temporal e fidelidade de iluminação, lidando robustamente com rotações de câmera de -90 a 90 graus. Código: https://github.com/AIGeeksGroup/Light4D. Website: https://aigeeksgroup.github.io/Light4D.
Os modelos de difusão de áudio conseguem sintetizar música de alta fidelidade a partir de texto, mas os seus mecanismos internos de representação de conceitos de alto nível permanecem pouco compreendidos. Neste trabalho, utilizamos a técnica de "activation patching" para demonstrar que conceitos musicais semânticos distintos, como a presença de instrumentos específicos, vocais ou características de género, são controlados por um subconjunto pequeno e partilhado de camadas de atenção nas arquiteturas de difusão de áudio de última geração. Em seguida, demonstramos que a aplicação de Adição de Ativação Contrastante e de Auto codificadores Esparsos nessas camadas permite um controlo mais preciso sobre o áudio gerado, indicando um benefício direto do fenómeno de especialização. Ao direcionar as ativações das camadas identificadas, podemos alterar elementos musicais específicos com alta precisão, como modular o andamento ou alterar o ambiente de uma faixa.
A identificação de commits que corrigem vulnerabilidades correspondentes a CVEs divulgados é essencial para a manutenção segura de software, mas permanece um desafio em escala, uma vez que grandes repositórios contêm milhões de commits, dos quais apenas uma pequena fração aborda problemas de segurança. As abordagens automatizadas existentes, incluindo técnicas tradicionais de aprendizado de máquina e métodos recentes baseados em modelos de linguagem grande (LLM), frequentemente sofrem com compensações inadequadas entre precisão e recall. Frequentemente avaliados em commits amostrados aleatoriamente, descobrimos que elas subestimam substancialmente a dificuldade do mundo real, onde os commits candidatos já são relevantes para segurança e altamente similares. Propomos o Favia, uma estrutura forense baseada em agentes para identificação de correções de vulnerabilidades que combina a classificação escalável de candidatos com raciocínio semântico profundo e iterativo. O Favia emprega primeiro um estágio eficiente de classificação para reduzir o espaço de busca de commits. Cada commit é então rigorosamente avaliado usando um agente de LLM baseado em ReAct. Ao fornecer ao agente um repositório pré-commit como ambiente, juntamente com ferramentas especializadas, o agente tenta localizar componentes vulneráveis, navega na base de código e estabelece um alinhamento causal entre as alterações de código e as causas raiz da vulnerabilidade. Este processo orientado por evidências permite a identificação robusta de correções indiretas, multiarquivo e não triviais que escapam a métodos de passagem única ou baseados em similaridade. Avaliamos o Favia no CVEVC, um conjunto de dados em larga escala que criamos e que compreende mais de 8 milhões de commits de 3.708 repositórios do mundo real, e mostramos que ele supera consistentemente os modelos de referência tradicionais e baseados em LLM mais avançados sob seleção realista de candidatos, alcançando as mais fortes compensações entre precisão e recall e os maiores escores F1.
Apresentamos o scPilot, o primeiro framework sistemático para praticar o *raciocínio nativo em ômicas*: um modelo de linguagem grande (LLM) dialoga em linguagem natural enquanto inspeciona diretamente dados de RNA-seq de célula única e ferramentas de bioinformática sob demanda. O scPilot converte análises centrais de célula única, ou seja, anotação de tipo celular, reconstrução de trajetória de desenvolvimento e identificação de fatores de transcrição-alvo, em problemas de raciocínio passo a passo que o modelo deve resolver, justificar e, quando necessário, revisar com novas evidências. Para medir o progresso, lançamos o scBench, um conjunto de 9 conjuntos de dados curados por especialistas e avaliadores que testam fielmente a capacidade de raciocínio nativo em ômicas do scPilot em relação a vários LLMs. Experimentos com o o1 mostram que o raciocínio nativo em ômicas iterativo aumenta a precisão média em 11% para anotação de tipo celular, e o Gemini-2.5-Pro reduz a distância de edição de grafos de trajetória em 30% em comparação com o *prompting* único, ao mesmo tempo que gera trilhas de raciocínio transparentes que explicam a ambiguidade de genes marcadores e a lógica regulatória. Ao fundamentar LLMs em dados brutos de ômicas, o scPilot permite análises de célula única auditáveis, interpretáveis e com valor diagnóstico. Código, dados e pacote estão disponíveis em https://github.com/maitrix-org/scPilot.
Os métodos de direcionamento influenciam o comportamento de Modelos de Linguagem Grande identificando direções semânticas nas representações ocultas, mas são tipicamente realizados através de intervenções de ativação durante a inferência que aplicam uma modificação fixa e global aos estados internos do modelo. Embora eficazes, tais intervenções frequentemente induzem compensações desfavoráveis entre atributo e utilidade sob controle forte, pois ignoram o facto de que muitos comportamentos são governados por um subconjunto pequeno e heterogéneo de componentes do modelo. Propomos o Steer2Edit, um quadro teórico e livre de treino que transforma vetores de direcionamento de sinais de controlo em tempo de inferência em sinais de diagnóstico para edição de pesos de nível de componente rank-1. Em vez de injetar uniformemente uma direção de direcionamento durante a geração, o Steer2Edit redistribui seletivamente a influência comportamental através de cabeças de atenção individuais e neurónios MLP, produzindo edições interpretáveis que preservam a passagem direta padrão e permanecem compatíveis com inferência paralela otimizada. Em alinhamento de segurança, mitigação de alucinação e eficiência de raciocínio, o Steer2Edit alcança consistentemente compensações mais favoráveis entre atributo e utilidade: com desempenho equivalente a jusante, melhora a segurança em até 17,2%, aumenta a veracidade em 9,8% e reduz o comprimento do raciocínio em 12,2% em média. Globalmente, o Steer2Edit fornece uma ponte fundamentada entre o direcionamento de representações e a edição de pesos, traduzindo sinais de direcionamento em atualizações de parâmetros interpretáveis e livres de treino.
A Quantização Pós-Treinamento (QPT) é essencial para a implantação de Grandes Modelos de Linguagem (LLMs) em dispositivos com restrições de memória, no entanto, torna os modelos estáticos e difíceis de ajustar. Os paradigmas padrão de ajuste fino, incluindo o Aprendizado por Reforço (AR), dependem fundamentalmente da retropropagação e de pesos de alta precisão para calcular gradientes. Portanto, eles não podem ser usados em modelos quantizados, onde o espaço de parâmetros é discreto e não diferenciável. Embora as Estratégias Evolutivas (EE) ofereçam uma alternativa livre de retropropagação, a otimização dos parâmetros quantizados ainda pode falhar devido ao desaparecimento ou imprecisão do gradiente. Este artigo introduz as Estratégias Evolutivas Quantizadas (EEQ), um paradigma de otimização que realiza o ajuste fino de todos os parâmetros diretamente no espaço quantizado. A EEQ é baseada em duas inovações: (1) integra um feedback de erro acumulado para preservar sinais de gradiente de alta precisão, e (2) utiliza uma repetição de sementes sem estado para reduzir o uso de memória aos níveis de inferência de baixa precisão. A EEQ supera significativamente o método state-of-the-art de ajuste fino de ordem zero em tarefas de raciocínio aritmético, tornando possível o ajuste fino direto para modelos quantizados. Ela abre, portanto, a possibilidade de escalar LLMs inteiramente no espaço quantizado. O código-fonte está disponível em https://github.com/dibbla/Quantized-Evolution-Strategies.
O mapeamento de copas de árvores individuais é essencial para tarefas como a manutenção de inventários de árvores urbanas e o monitoramento da saúde das florestas, o que nos ajuda a compreender e cuidar do nosso ambiente. No entanto, a separação automática das copas umas das outras em imagens aéreas é um desafio devido a fatores como a textura e as sobreposições parciais das copas. Neste estudo, apresentamos um método para treinar modelos de aprendizagem profunda que segmentam e separam árvores individuais a partir de imagens RGB e multiespectrais, utilizando pseudoanotações derivadas de dados de varredura a laser aerotransportada (VLA). O nosso estudo demonstra que as pseudoanotações derivadas de VLA podem ser aprimoradas através da utilização de um modelo de segmentação de instâncias de disparo zero, o Segment Anything Model 2 (SAM 2). O nosso método oferece uma forma de obter anotações de treino específicas do domínio para modelos baseados em imagens óticas sem qualquer custo de anotação manual, resultando em modelos de segmentação que superam os modelos disponíveis que foram concebidos para implementação em domínio geral na mesma tarefa.
Os grandes modelos de fundação têm demonstrado forte generalização em mundo aberto para problemas complexos em visão e linguagem, mas níveis similares de generalização ainda não foram alcançados em robótica. Um desafio fundamental é que os modelos exibem capacidade limitada de zero-shot, o que dificulta sua habilidade de generalizar efetivamente para cenários não vistos. Neste trabalho, propomos o GeneralVLA (Modelos Generalizáveis de Visão-Linguagem-Ação com Planejamento de Trajetória Guiado por Conhecimento), um modelo hierárquico de visão-linguagem-ação (VLA) que pode ser mais eficaz na utilização da generalização dos modelos de fundação, permitindo manipulação zero-shot e geração automática de dados para robótica. Especificamente, estudamos uma classe de modelo VLA hierárquico onde o módulo de alto nível ASM (Módulo de Segmentação de Afordabilidade) é ajustado para perceber afordabilidades de pontos-chave da imagem da cena; o agente de nível médio 3DAgent realiza compreensão de tarefas, conhecimento de habilidades e planejamento de trajetória para produzir um caminho 3D que indica a trajetória desejada do efetuador final do robô. A previsão do caminho 3D intermediário serve então como orientação para a política de controle de baixo nível, consciente do 3D, capaz de manipulação precisa. Em comparação com abordagens alternativas, nosso método não requer coleta de dados robóticos do mundo real ou demonstração humana, tornando-o muito mais escalável para tarefas e pontos de vista diversos. Empiricamente, o GeneralVLA gera trajetórias com sucesso para 14 tarefas, superando significativamente métodos state-of-the-art como o VoxPoser. As demonstrações geradas podem treinar políticas de clonagem de comportamento mais robustas do que o treinamento com demonstrações humanas ou com dados gerados por VoxPoser, Scaling-up e Code-As-Policies. Acreditamos que o GeneralVLA pode ser o método escalável tanto para gerar dados para robótica quanto para resolver novas tarefas em um cenário zero-shot. Código: https://github.com/AIGeeksGroup/GeneralVLA. Site: https://aigeeksgroup.github.io/GeneralVLA.
A identificação de línguas (LID) é uma etapa essencial na construção de conjuntos de dados multilingues de alta qualidade a partir de dados da web. As ferramentas de LID existentes (como OpenLID ou GlotLID) frequentemente têm dificuldade em identificar línguas estreitamente relacionadas e em distinguir linguagem natural válida de ruído, o que contamina os subconjuntos específicos de cada língua, especialmente para línguas de baixos recursos. Neste trabalho, estendemos o classificador OpenLID adicionando mais dados de treino, fundindo *clusters* de variantes linguísticas problemáticas e introduzindo uma etiqueta especial para marcar ruído. Denominamos este sistema estendido de OpenLID-v3 e avaliamo-lo em comparação com o GlotLID em múltiplos *benchmarks*. Durante o desenvolvimento, focamo-nos em três grupos de línguas estreitamente relacionadas (Bósnio, Croata e Sérvio; variedades românicas do Norte de Itália e Sul de França; e línguas escandinavas) e contribuímos com novos conjuntos de dados de avaliação onde os existentes são inadequados. Concluímos que as abordagens de *ensemble* melhoram a precisão, mas também reduzem substancialmente a cobertura para línguas de baixos recursos. O OpenLID-v3 está disponível em https://huggingface.co/HPLT/OpenLID-v3.