Artigos de pesquisa em IA selecionados diariamente com traduções
Muitos métodos de atenção esparsa sem treinamento são eficazes para acelerar modelos de difusão. Recentemente, vários trabalhos sugerem que tornar a atenção esparsa treinável pode aumentar ainda mais a esparsidade, preservando a qualidade da geração. Estudamos três questões-chave: (1) quando as duas regras de mascaramento comuns, Top-k e Top-p, falham, e como podemos evitar essas falhas? (2) por que a atenção esparsa treinável pode atingir maior esparsidade do que os métodos sem treinamento? (3) quais são as limitações do ajuste fino da atenção esparsa usando a perda de difusão, e como podemos abordá-las? Com base nesta análise, propomos o SpargeAttention2, um método de atenção esparsa treinável que alcança alta esparsidade sem degradar a qualidade da geração. O SpargeAttention2 inclui (i) uma regra de mascaramento híbrida que combina Top-k e Top-p para um mascaramento mais robusto em alta esparsidade, (ii) uma implementação eficiente de atenção esparsa treinável, e (iii) um objetivo de ajuste fino inspirado em destilação para preservar melhor a qualidade da geração durante o ajuste fino usando atenção esparsa. Experimentos em modelos de difusão de vídeo mostram que o SpargeAttention2 atinge 95% de esparsidade de atenção e uma aceleração de atenção de 16,2x, mantendo a qualidade da geração, superando consistentemente os métodos anteriores de atenção esparsa.
Apresentamos os Unified Latents (UL), uma estrutura para aprender representações latentes que são regularizadas conjuntamente por um prior de difusão e decodificadas por um modelo de difusão. Ao vincular o ruído de saída do codificador ao nível mínimo de ruído do prior, obtemos um objetivo de treinamento simples que fornece um limite superior rigoroso para a taxa de bits latente. No ImageNet-512, nossa abordagem alcança um FID competitivo de 1,4, com alta qualidade de reconstrução (PSNR), exigindo menos FLOPS de treinamento do que os modelos treinados em latentes do Stable Diffusion. No Kinetics-600, estabelecemos um novo estado da arte em FVD de 1,3.
O artigo apresenta o GUI-Owl-1.5, o mais recente modelo de agente de interface gráfica nativo, que apresenta variantes de instrução/raciocínio em múltiplos tamanhos (2B/4B/8B/32B/235B) e suporta uma variedade de plataformas (desktop, móvel, navegador e outras) para permitir colaboração cloud-edge e interação em tempo real. O GUI-Owl-1.5 alcança resultados de última geração em mais de 20 benchmarks de GUI em modelos de código aberto: (1) em tarefas de automação de GUI, obtém 56,5 no OSWorld, 71,6 no AndroidWorld e 48,4 no WebArena; (2) em tarefas de *grounding*, obtém 80,3 no ScreenSpotPro; (3) em tarefas de chamada de ferramentas, obtém 47,6 no OSWorld-MCP e 46,8 no MobileWorld; (4) em tarefas de memória e conhecimento, obtém 75,5 no GUI-Knowledge Bench. O GUI-Owl-1.5 incorpora várias inovações-chave: (1) *Flywheel* de Dados Híbrido: construímos o pipeline de dados para compreensão de IU e geração de trajetórias com base numa combinação de ambientes simulados e ambientes de *sandbox* baseados na nuvem, de modo a melhorar a eficiência e a qualidade da recolha de dados. (2) Aprimoramento Unificado das Capacidades do Agente: usamos um pipeline unificado de síntese de pensamento para melhorar as capacidades de raciocínio do modelo, colocando particular ênfase na melhoria das capacidades-chave do agente, incluindo o uso de Ferramentas/MCP, memória e adaptação multiagente; (3) Escalonamento de RL em Ambiente Multiplataforma: Propomos um novo algoritmo de RL de ambiente, o MRPO, para enfrentar os desafios dos conflitos multiplataforma e da baixa eficiência de treino em tarefas de longo horizonte. Os modelos GUI-Owl-1.5 são de código aberto, e uma demonstração online de *sandbox* na nuvem está disponível em https://github.com/X-PLUG/MobileAgent.
Assistentes de IA agentes que realizam tarefas multi-etapa de forma autónoma levantam questões em aberto para a experiência do utilizador: como devem estes sistemas comunicar o progresso e o raciocínio durante operações prolongadas, especialmente em contextos críticos de atenção, como a condução? Investigámos o *timing* e a verbosidade do *feedback* de assistentes agentes baseados em LLM para o carro, através de um estudo controlado de métodos mistos (N=45) que comparou o *feedback* sobre etapas planeadas e resultados intermédios com uma operação silenciosa que fornece apenas o resultado final. Utilizando um paradigma de dupla tarefa com um assistente de voz no carro, descobrimos que o *feedback* intermédio melhorou significativamente a velocidade percebida, a confiança e a experiência do utilizador, ao mesmo tempo que reduziu a carga de tarefa – efeitos que se mantiveram em diferentes complexidades de tarefa e contextos de interação. Entrevistas revelaram ainda a preferência dos utilizadores por uma abordagem adaptativa: alta transparência inicial para estabelecer confiança, seguida de uma redução progressiva da verbosidade à medida que o sistema prova ser fiável, com ajustes baseados na importância da tarefa e no contexto situacional. Traduzimos as nossas descobertas empíricas em implicações de *design* para o *timing* e a verbosidade do *feedback* em assistentes agentes, equilibrando transparência e eficiência.
Os LLMs (Modelos de Linguagem de Grande Porte) estão a ser cada vez mais utilizados para problemas complexos que não são necessariamente resolvidos numa única resposta, mas que exigem a interação com um ambiente para adquirir informações. Nestes cenários, os LLMs devem raciocinar sobre os compromissos inerentes entre custo e incerteza, decidindo quando parar de explorar e comprometer-se com uma resposta. Por exemplo, numa tarefa de programação, um LLM deve testar um *snippet* de código gerado se estiver incerto sobre a sua correção; o custo de escrever um teste é diferente de zero, mas tipicamente inferior ao custo de cometer um erro. Neste trabalho, mostramos que podemos induzir os LLMs a raciocinar explicitamente sobre o equilíbrio destes compromissos de custo-incerteza, para depois realizarem uma exploração do ambiente mais otimizada. Formalizamos múltiplas tarefas, incluindo recuperação de informação e programação, como problemas de tomada de decisão sequencial sob incerteza. Cada problema tem um estado de ambiente latente sobre o qual se pode raciocinar através de um *prior* que é passado para o agente LLM. Introduzimos uma estrutura denominada Calibrar-Depois-Agir (CTA), na qual fornecemos ao LLM este contexto adicional para lhe permitir agir de forma mais otimizada. Esta melhoria mantém-se mesmo sob treino de Aprendizagem por Reforço (RL) tanto da linha de base como da CTA. Os nossos resultados em QA de busca de informação e numa tarefa de programação simplificada mostram que tornar explícitos os compromissos de custo-benefício com a CTA pode ajudar os agentes a descobrir estratégias de tomada de decisão mais otimizadas.
As demonstrações humanas coletadas por dispositivos vestíveis (por exemplo, luvas táteis) fornecem uma supervisão rápida e hábil para a aprendizagem de políticas, sendo guiadas por um feedback tátil rico e natural. No entanto, um desafio fundamental é como transferir os sinais táteis coletados por humanos para robôs, apesar das diferenças nas modalidades de sensoriamento e na incorporação física. As abordagens existentes de humano-para-robô (H2R) que incorporam o tato frequentemente assumem sensores táteis idênticos, exigem dados emparelhados e envolvem pouca ou nenhuma diferença de incorporação entre o demonstrador humano e os robôs, limitando a escalabilidade e a generalidade. Nós propomos o TactAlign, um método de alinhamento tátil entre incorporações físicas diferentes que transfere sinais táteis coletados por humanos para um robô com uma incorporação distinta. O TactAlign transforma as observações táteis humanas e robóticas numa representação latente compartilhada usando um fluxo retificado, sem a necessidade de conjuntos de dados emparelhados, rótulos manuais ou informações privilegiadas. O nosso método permite um transporte latente de baixo custo guiado por pseudo-pares derivados da interação mão-objeto. Demonstramos que o TactAlign melhora a transferência de políticas H2R em várias tarefas ricas em contacto (pivoteamento, inserção, fecho de tampa), generaliza-se para objetos e tarefas não vistos com dados humanos (menos de 5 minutos) e permite a transferência H2R de forma imediata (zero-shot) numa tarefa altamente hábil (aparafusamento de lâmpada).
Apresentamos o relatório técnico do Arcee Trinity Large, um modelo esparso de Mistura de Especialistas (Mixture-of-Experts) com 400 bilhões de parâmetros totais e 13 bilhões ativados por token. Adicionalmente, relatamos sobre o Trinity Nano e o Trinity Mini, sendo que o Trinity Nano possui 6 bilhões de parâmetros totais com 1 bilhão ativados por token, e o Trinity Mini possui 26 bilhões de parâmetros totais com 3 bilhões ativados por token. A arquitetura moderna dos modelos inclui atenção intercalada local e global, atenção com portão (gated attention), normalização "sanduíche" escalonada por profundidade (depth-scaled sandwich norm) e roteamento por sigmoide para a Mistura de Especialistas. Para o Trinity Large, também introduzimos uma nova estratégia de balanceamento de carga para MoE intitulada Soft-clamped Momentum Expert Bias Updates (SMEBU). Treinamos os modelos utilizando o otimizador Muon. Todos os três modelos concluíram o treinamento sem picos de perda (zero loss spikes). O Trinity Nano e o Trinity Mini foram pré-treinados em 10 trilhões de tokens, e o Trinity Large foi pré-treinado em 17 trilhões de tokens. Os *checkpoints* dos modelos estão disponíveis em https://huggingface.co/arcee-ai.
Os Transformadores de Difusão (DiTs) alcançaram desempenho de ponta na geração de imagens e vídeos, mas seu sucesso vem ao custo de uma computação intensa. Essa ineficiência deve-se em grande parte ao processo de tokenização fixa, que utiliza *patches* de tamanho constante durante toda a fase de remoção de ruído, independentemente da complexidade do conteúdo. Propomos uma tokenização dinâmica, uma estratégia eficiente em tempo de teste que varia os tamanhos dos *patches* com base na complexidade do conteúdo e no *timestep* de desruído. Nossa principal percepção é que os *timesteps* iniciais requerem apenas *patches* mais grossos para modelar a estrutura global, enquanto iterações posteriores demandam *patches* mais finos (de tamanho menor) para refinar detalhes locais. Durante a inferência, nosso método realoca dinamicamente os tamanhos dos *patches* entre as etapas de remoção de ruído para geração de imagem e vídeo, reduzindo substancialmente o custo enquanto preserva a qualidade perceptual da geração. Experimentos extensivos demonstram a eficácia de nossa abordagem: ela alcança acelerações de até 3,52× e 3,2× no FLUX-1.Dev e no Wan 2.1, respectivamente, sem comprometer a qualidade de geração e a aderência ao *prompt*.
Para compreender e identificar os riscos sem precedentes representados pelos modelos de inteligência artificial (IA) em rápido avanço, o *Framework Prático de Gestão de Riscos de IA de Fronteira* apresenta uma avaliação abrangente dos seus riscos de ponta. À medida que as capacidades gerais dos Modelos de Linguagem de Grande Escala (LLMs) evoluem rapidamente e a proliferação de IA agentiva se intensifica, esta versão do relatório técnico de análise de riscos apresenta uma avaliação atualizada e granular de cinco dimensões críticas: ofensivas cibernéticas, persuasão e manipulação, decepção estratégica, Pesquisa e Desenvolvimento (P\&D) de IA não controlada e autorreplicação. Especificamente, introduzimos cenários mais complexos para ofensivas cibernéticas. Para persuasão e manipulação, avaliamos o risco de persuasão entre LLMs em modelos recém-lançados. Para decepção estratégica e conluio, adicionamos um novo experimento relativo ao desalinhamento emergente. Para P\&D de IA não controlada, focamo-nos na "má-evolução" de agentes à medida que estes expandem autonomamente os seus substratos de memória e conjuntos de ferramentas. Além disso, também monitorizamos e avaliamos o desempenho de segurança do OpenClaw durante a interação no Moltbook. Para a autorreplicação, introduzimos um novo cenário com restrições de recursos. Mais importante ainda, propomos e validamos uma série de estratégias de mitigação robustas para enfrentar estas ameaças emergentes, fornecendo um caminho técnico e acionável preliminar para a implantação segura da IA de fronteira. Este trabalho reflete a nossa compreensão atual dos riscos de ponta da IA e apela a uma ação coletiva para mitigar estes desafios.
Embora os modelos de linguagem de grande porte de ponta demonstrem fortes capacidades de raciocínio e matemática, o processo prático de treinamento de modelos de linguagem científicos especializados por domínio a partir de fontes brutas permanece pouco documentado. Neste trabalho, apresentamos um estudo de caso detalhado do treinamento de um modelo de linguagem científico de 1,36 bilhão de parâmetros diretamente a partir de fontes LaTeX brutas do arXiv, abrangendo matemática, ciência da computação e física teórica. Descrevemos um pipeline de ponta a ponta que cobre filtragem de metadados, validação de arquivos, extração de LaTeX, normalização de texto, tokenização com consciência de domínio e treinamento de transformadores densos sob recursos computacionais limitados (2 GPUs A100). Por meio de 24 execuções experimentais, analisamos a estabilidade do treinamento, o comportamento de escalonamento, as perdas de rendimento de dados e os gargalos de infraestrutura. Nossas descobertas destacam como decisões de pré-processamento afetam significativamente o volume utilizável de tokens, como a tokenização impacta a estabilidade simbólica e como as restrições de armazenamento e E/S podem rivalizar com o poder computacional como fatores limitantes. Analisamos ainda a dinâmica de convergência e mostramos um comportamento de treinamento estável em um regime rico em dados (52 bilhões de tokens de pré-treinamento). Em vez de propor uma nova arquitetura, este trabalho fornece um relato transparente e fundamentado em engenharia do treinamento de um pequeno modelo de linguagem científico a partir do zero. Esperamos que esses insights apoiem pesquisadores que operam com orçamentos computacionais moderados e buscam construir modelos especializados por domínio.
Grande parte do avanço da Aprendizagem por Reforço Multiagente (MARL) em jogos de informação imperfeita historicamente dependeu do refinamento iterativo manual de linhas de base. Embora famílias fundamentais como a Minimização de Arrependimento Contrafactual (CFR) e os Oradores de Resposta no Espaço de Políticas (PSRO) estejam alicerçadas em bases teóricas sólidas, o projeto de suas variantes mais eficazes frequentemente depende da intuição humana para navegar um vasto espaço de design algorítmico. Neste trabalho, propomos o uso do AlphaEvolve, um agente de codificação evolutiva alimentado por modelos de linguagem grandes, para descobrir automaticamente novos algoritmos de aprendizagem multiagente. Demonstramos a generalidade deste framework evoluindo novas variantes para dois paradigmas distintos de aprendizagem teórico-jogos. Primeiro, no domínio da minimização iterativa de arrependimento, evoluímos a lógica que rege o acúmulo de arrependimento e a derivação de políticas, descobrindo um novo algoritmo, CFR com Desconto Adaptativo à Volatilidade (VAD-CFR). O VAD-CFR emprega mecanismos novos e não intuitivos – incluindo desconto sensível à volatilidade, otimismo com imposição de consistência e um cronograma de acumulação de políticas com inicialização forçada – para superar linhas de base state-of-the-art como o Discounted Predictive CFR+. Segundo, no regime de algoritmos de treinamento baseados em população, evoluímos resolvedores de metaestratégia para o PSRO no momento do treinamento e da avaliação, descobrindo uma nova variante, PSRO com Arrependimento Otimista Híbrido Suavizado (SHOR-PSRO). O SHOR-PSRO introduz um meta-resolvedor híbrido que combina linearmente o Correspondência de Arrependimento Otimista com uma distribuição suavizada e controlada por temperatura sobre as melhores estratégias puras. Ao realizar o recozimento dinâmico deste fator de combinação e bônus de diversidade durante o treinamento, o algoritmo automatiza a transição da diversidade da população para a busca rigorosa de equilíbrio, resultando em uma convergência empírica superior em comparação com meta-resolvedores estáticos padrão.
A capacidade de os modelos VLA preverem a dinâmica ambiental, conhecida como modelação do mundo, tem sido reconhecida como essencial para melhorar o raciocínio e a generalização robótica. No entanto, as abordagens atuais enfrentam dois problemas principais: 1. O objetivo de treino força os modelos a sobrevalorizar a reconstrução a nível de píxeis, o que limita a aprendizagem semântica e a generalização; 2. A dependência de observações futuras previstas durante a inferência frequentemente leva à acumulação de erros. Para enfrentar estes desafios, introduzimos o Alinhamento de Representações Futuras via Expansão Paralela Progressiva (FRAPPE). O nosso método adota uma estratégia de afinação em duas fases: Na fase de meio-treino, o modelo aprende a prever as representações latentes das observações futuras; Na fase de pós-treino, expandimos a carga computacional em paralelo e alinhamos a representação simultaneamente com múltiplos modelos visuais fundamentais diferentes. Ao melhorar significativamente a eficiência da afinação e reduzir a dependência de dados anotados com ações, o FRAPPE fornece um caminho escalável e eficiente em dados para melhorar a consciência do mundo em políticas robóticas generalistas. Experiências no benchmark RoboTwin e em tarefas do mundo real demonstram que o FRAPPE supera as abordagens state-of-the-art e mostra uma forte generalização em cenários de longo horizonte e não observados.
Apresentamos uma análise abrangente de como redes neurais de duas camadas aprendem características para resolver a tarefa de adição modular. Nosso trabalho fornece uma interpretação mecanicista completa do modelo aprendido e uma explicação teórica de sua dinâmica de treinamento. Embora trabalhos anteriores tenham identificado que neurônios individuais aprendem características de Fourier de frequência única e alinhamento de fase, isso não explica totalmente como essas características se combinam em uma solução global. Preenchemos essa lacuna formalizando uma condição de diversificação que emerge durante o treinamento quando a rede é superparametrizada, consistindo em duas partes: simetria de fase e diversificação de frequência. Provamos que essas propriedades permitem que a rede aproxime coletivamente uma função indicadora defeituosa da lógica correta para a tarefa de adição modular. Embora neurônios individuais produzam sinais ruidosos, a simetria de fase permite um esquema de votação majoritária que cancela o ruído, permitindo que a rede identifique robustamente a soma correta. Além disso, explicamos o surgimento dessas características sob inicialização aleatória por meio de um mecanismo de "bilhete premiado" (*lottery ticket*). Nossa análise do fluxo de gradiente prova que as frequências competem dentro de cada neurônio, com o "vencedor" determinado por sua magnitude espectral inicial e alinhamento de fase. Do ponto de vista técnico, fornecemos uma caracterização rigorosa da dinâmica de acoplamento de fase por camada e formalizamos o cenário competitivo usando o lema de comparação de EDOs. Finalmente, usamos essas percepções para desmistificar o *grokking*, caracterizando-o como um processo de três estágios envolvendo memorização seguida por duas fases de generalização, impulsionadas pela competição entre minimização da perda e decaimento de pesos (*weight decay*).
Agentes que operam em ambientes de software complexos beneficiam-se de raciocinar sobre as consequências de suas ações, uma vez que até mesmo uma única operação incorreta na interface do usuário (IU) pode descarrilar fluxos de trabalho longos e que preservam artefatos. Este desafio é particularmente agudo em cenários de uso de computador, onde a execução real não suporta exploração contrafactual, tornando o aprendizado e planejamento em larga escala por tentativa e erro impraticáveis, apesar do ambiente ser totalmente digital e determinístico. Apresentamos o Modelo de Mundo de Uso de Computador (CUWM), um modelo de mundo para software de desktop que prevê o próximo estado da IU dado o estado atual e uma ação candidata. O CUWM adota uma fatorização em dois estágios da dinâmica da IU: primeiro prevê uma descrição textual das mudanças de estado relevantes para o agente e, em seguida, realiza essas mudanças visualmente para sintetizar a próxima captura de tela. O CUWM é treinado em transições de IU offline coletadas de agentes interagindo com aplicativos reais do Microsoft Office e posteriormente refinado com um estágio leve de aprendizado por reforço que alinha as previsões de transição textual com os requisitos estruturais dos ambientes de uso de computador. Avaliamos o CUWM por meio de busca de ações em tempo de teste, onde um agente congelado usa o modelo de mundo para simular e comparar ações candidatas antes da execução. Em uma variedade de tarefas do Office, a escala em tempo de teste guiada pelo modelo de mundo melhora a qualidade da decisão e a robustez da execução.
Um desafio central na edição de grandes modelos de linguagem (LLMs) é a preservação de capacidades: métodos que alteram com sucesso o comportamento alvo podem, silenciosamente, otimizar excessivamente o proxy de edição e corromper capacidades gerais, produzindo comportamentos degenerados que lembram o "hacking" de proxy/recompensa. Apresentamos o CrispEdit, um algoritmo de edição escalável e fundamentado de segunda ordem que trata a preservação de capacidades como uma restrição explícita, unificando e generalizando várias abordagens de edição existentes. O CrispEdit formula a edição como um problema de otimização com restrições e aplica a restrição projetando as atualizações de edição no subespaço de baixa curvatura do panorama de perda de capacidade. A essência do CrispEdit é expressar a restrição de capacidade por meio da divergência de Bregman, cuja forma quadrática produz exatamente a Hessiana de Gauss-Newton, mesmo quando o modelo base não foi treinado até a convergência. Tornamos este procedimento de segunda ordem eficiente na escala de LLMs usando a curvatura aproximada fatorada por Kronecker (K-FAC) e um novo projetor livre de matriz que explora a estrutura de Kronecker para evitar a construção de matrizes de projeção massivas. Em benchmarks padrão de edição de modelos, o CrispEdit alcança alto sucesso de edição enquanto mantém a degradação de capacidade abaixo de 1% em média entre os conjuntos de dados, melhorando significativamente em relação aos editores anteriores.
Os transformadores de atenção linear tornaram-se uma forte alternativa à atenção softmax devido à sua eficiência. No entanto, a atenção linear tende a ser menos expressiva e resulta em precisão reduzida em comparação com a atenção softmax. Para preencher a lacuna de precisão entre a atenção softmax e a atenção linear, manipulamos o Mamba-2, uma variante de atenção linear muito robusta. Primeiro, simplificamos o Mamba-2 até seus componentes mais fundamentais e importantes, avaliando quais escolhas específicas o tornam mais preciso. A partir desta variante simplificada do Mamba (Mamba-2S), melhoramos a máscara-A e aumentamos a ordem do estado oculto, resultando em um método, que chamamos de 2Mamba, que é quase tão preciso quanto a atenção softmax, porém muito mais eficiente em memória para contextos longos. Também investigamos elementos do Mamba-2 que ajudam a superar a precisão da atenção softmax. O código é fornecido para todos os nossos experimentos.
Os Modelos de Linguagem de Grande Porte (LLMs) demonstraram recentemente fortes capacidades de raciocínio e generalização, motivando seu uso como políticas de tomada de decisão em ambientes complexos. StarCraft II (SC2), com seu massivo espaço de estados-ações e observabilidade parcial, constitui um ambiente de teste desafiador. No entanto, os agentes de SC2 baseados em LLM existentes focam-se principalmente em melhorar a política em si e negligenciam a integração de um modelo de transição condicionado por ações e passível de aprendizado no ciclo de decisão. Para preencher esta lacuna, propomos o StarWM, o primeiro modelo de mundo para SC2 que prevê observações futuras sob observabilidade parcial. Para facilitar a aprendizagem da dinâmica híbrida do SC2, introduzimos uma representação textual estruturada que fatoriza as observações em cinco módulos semânticos e construímos o SC2-Dynamics-50k, o primeiro conjunto de dados de ajuste por instrução para previsão da dinâmica do SC2. Desenvolvemos ainda uma estrutura de avaliação offline multidimensional para observações estruturadas previstas. Resultados offline mostram ganhos substanciais do StarWM sobre linhas de base de zero-shot, incluindo melhorias de quase 60% na precisão da previsão de recursos e na consistência da macro-situação do próprio lado. Finalmente, propomos o StarWM-Agent, um sistema de decisão aumentado por modelo de mundo que integra o StarWM num ciclo de decisão Gerar-Simular-Refinar para o aperfeiçoamento de políticas orientado pela previsão. A avaliação online contra a IA integrada do SC2 demonstra melhorias consistentes, resultando em ganhos de taxa de vitória de 30%, 15% e 30% contra os níveis Difícil (NV5), Mais Difícil (NV6) e Muito Difícil (NV7), respectivamente, juntamente com uma melhor estabilidade na macrogestão e avaliação de risco tático.
Apesar dos rápidos avanços nos agentes web autónomos, o envolvimento humano continua a ser essencial para moldar preferências e corrigir o comportamento dos agentes à medida que as tarefas se desenrolam. No entanto, os sistemas agentes atuais carecem de uma compreensão fundamentada sobre quando e por que os humanos intervêm, prosseguindo frequentemente de forma autónoma além de pontos de decisão críticos ou solicitando confirmações desnecessárias. Neste trabalho, introduzimos a tarefa de modelar a intervenção humana para apoiar a execução colaborativa de tarefas web. Recolhemos o CowCorpus, um conjunto de dados com 400 trajetórias de navegação web de utilizadores reais, contendo mais de 4.200 ações intercaladas de humanos e agentes. Identificamos quatro padrões distintos de interação do utilizador com os agentes: supervisão passiva, supervisão ativa, resolução colaborativa de tarefas e assumir total controlo. Aproveitando estas perceções, treinamos modelos de linguagem (LM) para prever quando os utilizadores são propensos a intervir com base nos seus estilos de interação, obtendo uma melhoria de 61,4-63,4% na precisão da previsão de intervenção em relação aos LM base. Por fim, implementamos estes modelos conscientes da intervenção em agentes de navegação web ativos e avaliamo-los num estudo com utilizadores, registando um aumento de 26,5% na utilidade do agente classificada pelo utilizador. Em conjunto, os nossos resultados mostram que a modelação estruturada da intervenção humana conduz a agentes mais adaptativos e colaborativos.
Apresentamos o NESSiE, o benchmark de Segurança NEceSsária para modelos de linguagem de grande escala (LLMs). Com casos de teste mínimos de segurança da informação e de acesso, o NESSiE revela falhas relevantes para a segurança que não deveriam existir, dada a baixa complexidade das tarefas. O NESSiE é concebido como uma verificação de sanidade leve e de fácil utilização para a segurança dos modelos de linguagem e, como tal, não é suficiente para garantir a segurança em geral – mas argumentamos que passar neste teste é necessário para qualquer implantação. No entanto, mesmo os LLMs mais avançados não atingem 100% no NESSiE e, portanto, falham na nossa condição necessária de segurança de modelos de linguagem, mesmo na ausência de ataques adversariais. A nossa métrica Seguro e Prestativo (SH) permite uma comparação direta dos dois requisitos, mostrando que os modelos estão enviesados para serem prestativos em vez de seguros. Adicionalmente, verificamos que o raciocínio desativado em alguns modelos, mas especialmente um contexto de distração benigno, degrada o desempenho do modelo. No geral, os nossos resultados sublinham os riscos críticos de implantar tais modelos como agentes autónomos em ambiente real. Disponibilizamos publicamente o conjunto de dados, o pacote e o código de visualização.
Os Modelos Visão-Linguagem-Ação (VLAs) emergiram como um paradigma fundamental da Inteligência Artificial Física e estão sendo cada vez mais implantados em veículos autónomos, robôs e espaços inteligentes. Nestes ambientes restritos de recursos em dispositivo, a seleção de um modelo de linguagem grande (LLM) base adequado é um desafio crítico: os modelos devem equilibrar precisão com restrições rigorosas de latência de inferência e eficiência de hardware. Isto torna a co-projetação hardware-software um requisito transformador para a implantação de LLMs em dispositivo, onde cada plataforma de hardware exige uma solução arquitectónica personalizada. Propomos uma lei de co-projetação de hardware que capta conjuntamente a precisão do modelo e o desempenho de inferência. Especificamente, modelamos a perda de treino como uma função explícita dos hiperparâmetros arquitectónicos e caracterizamos a latência de inferência através da modelação roofline. Avaliamos empiricamente 1.942 arquiteturas candidatas no NVIDIA Jetson Orin, treinando 170 modelos selecionados com 10B de tokens cada para ajustar uma lei de escalonamento que relaciona a arquitetura com a perda de treino. Ao acoplar esta lei de escalonamento com a modelação de latência, estabelecemos uma correspondência direta precisão-latência e identificamos a fronteira de Pareto para LLMs co-projetados para hardware. Formula-mos ainda a pesquisa de arquitetura como uma otimização conjunta sobre precisão e desempenho, derivando regiões de projeto viáveis sob orçamentos industriais de hardware e aplicação. A nossa abordagem reduz a seleção de arquitetura de meses para dias. À mesma latência do Qwen2.5-0.5B no hardware alvo, a nossa arquitetura co-projetada alcança uma perplexidade 19,42% inferior no WikiText-2. Até onde sabemos, este é o primeiro quadro operacional e fundamentado para leis de escalonamento de co-projetação de hardware na implantação de LLMs em dispositivo. Disponibilizaremos publicamente o código e os checkpoints relacionados.
O alinhamento de segurança é essencial para a implantação responsável de grandes modelos de linguagem (LLMs). No entanto, as abordagens existentes frequentemente dependem de ajuste fino (fine-tuning) pesado, que é custoso para atualizar, auditar e manter em diferentes famílias de modelos. O ajuste fino completo incorre em sobrecargas substanciais de computação e armazenamento, enquanto métodos com eficiência de parâmetros, como o LoRA, trocam eficiência por ganhos de segurança inconsistentes e sensibilidade a escolhas de projeto. Mecanismos de intervenção de segurança, como disjuntores (circuit breakers), reduzem saídas inseguras sem modificar os pesos do modelo, mas não moldam ou preservam diretamente as representações internas que governam o comportamento de segurança. Essas limitações dificultam atualizações de segurança rápidas e confiáveis, especialmente em contextos onde os modelos evoluem frequentemente ou devem se adaptar a novas políticas e domínios. Apresentamos o NeST, uma estrutura de alinhamento de segurança leve e consciente da estrutura, que fortalece o comportamento de recusa (refusal) ao adaptar seletivamente um pequeno subconjunto de neurônios relevantes para a segurança enquanto mantém congelado o restante do modelo. O NeST alinha as atualizações de parâmetros com a organização interna do comportamento de segurança, agrupando neurônios de segurança funcionalmente coerentes e aplicando atualizações compartilhadas dentro de cada cluster, permitindo uma adaptação de segurança direcionada e estável sem ampla modificação do modelo ou sobrecarga no tempo de inferência. Avaliamos o NeST em comparação com três linhas de base dominantes: ajuste fino completo, ajuste fino baseado em LoRA e disjuntores, em 10 LLMs de pesos abertos abrangendo múltiplas famílias e tamanhos de modelos. Em todos os modelos avaliados, o NeST reduz a taxa de sucesso de ataques de uma média de 44,5% para 4,36%, correspondendo a uma redução de 90,2% nas gerações inseguras, enquanto requer apenas 0,44 milhão de parâmetros treináveis em média. Isso representa uma redução de 17.310 vezes nos parâmetros atualizados em comparação com o ajuste fino completo e uma redução de 9,25 vezes em relação ao LoRA, ao mesmo tempo que alcança consistentemente um desempenho de segurança mais forte para o alinhamento.
Embora o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tenha demonstrado alta eficácia em tarefas de raciocínio, ele não pode ser aplicado diretamente a domínios não verificáveis que carecem de verificadores de verdade fundamental, como o alinhamento de LLMs. Neste trabalho, investigamos se avaliadores baseados em LLMs guiados por referências podem preencher essa lacuna atuando como "verificadores" suaves. Primeiro, projetamos protocolos de avaliação que aprimoram avaliadores baseados em LLM para alinhamento de LLM usando saídas de referência. Por meio de experimentos abrangentes, mostramos que uma abordagem guiada por referência melhora substancialmente a precisão de juízes LLM menos capazes utilizando referências de modelos de fronteira; juízes LLM mais fortes também podem ser aprimorados por referências de alta qualidade (ou seja, escritas por humanos). Com base nesses juízes aprimorados, demonstramos a utilidade de referências de alta qualidade no ajuste de alinhamento, onde LLMs guiados com referências são usados como juízes para autoaprimoramento. Mostramos que o autoaprimoramento guiado por referência produz ganhos claros em relação tanto à SFT direta em saídas de referência quanto ao autoaprimoramento com juízes livres de referência, alcançando desempenho comparável ao treinamento com ArmoRM, um forte modelo de recompensa afinado. Especificamente, nosso método atinge 73,1% e 58,7% no AlpacaEval e Arena-Hard com Llama-3-8B-Instruct, e 70,0% e 74,1% com Qwen2.5-7B, correspondendo a ganhos absolutos médios de +20,2 / +17,1 pontos sobre a destilação SFT e +5,3 / +3,6 pontos sobre o autoaprimoramento sem referência no AlpacaEval / Arena-Hard. Esses resultados destacam o potencial do uso de avaliadores LLM guiados por referência para permitir um pós-treinamento eficaz de LLMs em domínios não verificáveis.
A estimação de profundidade estéreo é fundamental para a percepção robótica subaquática, mas sofre com severas mudanças de domínio causadas pela atenuação da luz dependente do comprimento de onda, espalhamento e refração. Abordagens recentes aproveitam modelos de base monoculares com refinamento iterativo baseado em GRU para adaptação subaquática; no entanto, o gateamento sequencial e os kernels convolucionais locais nas GRUs exigem múltiplas iterações para propagação de disparidade de longo alcance, limitando o desempenho em regiões subaquáticas com grandes disparidades e sem textura. Neste artigo, propomos o StereoAdapter-2, que substitui o atualizador ConvGRU convencional por um novo operador ConvSS2D baseado em modelos de espaço de estados seletivos. O operador proposto emprega uma estratégia de varredura quadridental que se alinha naturalmente com a geometria epipolar enquanto captura a consistência estrutural vertical, permitindo uma propagação espacial eficiente de longo alcance dentro de uma única etapa de atualização com complexidade computacional linear. Além disso, construímos o UW-StereoDepth-80K, um grande conjunto de dados estéreo subaquático sintético com diversas linhas de base, coeficientes de atenuação e parâmetros de espalhamento, por meio de um pipeline generativo de dois estágios que combina transferência de estilo com consciência semântica e síntese de novas vistas com consistência geométrica. Combinado com a adaptação dinâmica LoRA herdada do StereoAdapter, nosso framework atinge desempenho state-of-the-art em avaliação zero-shot em benchmarks subaquáticos, com uma melhoria de 17% no TartanAir-UW e 7,2% no SQUID, com a validação no mundo real na plataforma BlueROV2 demonstrando a robustez da nossa abordagem. Código: https://github.com/AIGeeksGroup/StereoAdapter-2. Website: https://aigeeksgroup.github.io/StereoAdapter-2.