Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o MiroThinker v1.0, um agente de pesquisa de código aberto projetado para avançar as capacidades de raciocínio aumentado por ferramentas e busca de informação. Diferente de agentes anteriores que apenas aumentam o tamanho do modelo ou o comprimento do contexto, o MiroThinker explora a escala de interação no nível do modelo, treinando-o sistematicamente para lidar com interações agente-ambiente mais profundas e frequentes como uma terceira dimensão de melhoria de desempenho. Ao contrário da escala em tempo de teste de LLMs, que opera de forma isolada e corre o risco de degradação com cadeias de raciocínio mais longas, a escala interativa aproveita o feedback do ambiente e a aquisição de informação externa para corrigir erros e refinar trajetórias. Por meio de aprendizado por reforço, o modelo alcança uma escala de interação eficiente: com uma janela de contexto de 256K, ele pode realizar até 600 chamadas de ferramentas por tarefa, permitindo raciocínio sustentado de múltiplos turnos e fluxos de trabalho de pesquisa complexos do mundo real. Através de quatro benchmarks representativos - GAIA, HLE, BrowseComp e BrowseComp-ZH - a variante de 72B atinge até 81,9%, 37,7%, 47,1% e 55,6% de precisão, respectivamente, superando agentes de código aberto anteriores e se aproximando de contrapartes comerciais como o GPT-4. Nossa análise revela que o MiroThinker beneficia-se consistentemente da escala interativa: o desempenho em pesquisa melhora de forma previsível à medida que o modelo se envolve em interações agente-ambiente mais profundas e frequentes, demonstrando que a profundidade de interação exibe comportamentos de escala análogos ao tamanho do modelo e ao comprimento do contexto. Essas descobertas estabelecem a escala de interação como uma terceira dimensão crítica para a construção de agentes de pesquisa abertos de próxima geração, complementando a capacidade do modelo e as janelas de contexto.
Os Grandes Modelos de Linguagem (LLMs) demonstraram capacidades notáveis em diversos domínios, mas o seu treinamento continua a ser um processo intensivo em recursos e tempo, exigindo poder computacional massivo e uma orquestração cuidadosa dos procedimentos de treino. A técnica de "model souping" - a prática de calcular a média dos pesos de múltiplos modelos da mesma arquitetura - emergiu como uma técnica promissora, aplicável antes e após o treino, que pode melhorar o desempenho sem um retreinamento dispendioso. Neste artigo, introduzimos a "Sopa de Especialistas por Categoria" (SoCE), uma abordagem fundamentada para "model souping" que utiliza a composição de benchmarks para identificar os candidatos de modelo ideais e aplica uma média ponderada não uniforme para maximizar o desempenho. Ao contrário das abordagens anteriores de média uniforme, o nosso método aproveita a observação de que as categorias de benchmark frequentemente exibem baixas intercorrelações no desempenho dos modelos. A SoCE identifica modelos "especialistas" para cada agrupamento de categorias fracamente correlacionadas e combina-os usando uma média ponderada otimizada em vez de pesos uniformes. Demonstramos que o método proposto melhora o desempenho e a robustez em múltiplos domínios, incluindo capacidades multilingues, chamada de ferramentas e matemática, e alcança resultados de última geração no Berkeley Function Calling Leaderboard.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm deslocado a fronteira da resolução de quebra-cabeças para o raciocínio de nível científico — o tipo necessário para abordar problemas cujas respostas devem resistir à natureza, e não apenas se encaixar em uma rubrica. A física é o teste mais rigoroso dessa mudança, que vincula símbolos à realidade de maneira fundamental, servindo como a pedra angular da maioria das tecnologias modernas. Neste trabalho, conseguimos avançar a pesquisa em física desenvolvendo modelos de linguagem de grande escala com capacidades excepcionais de raciocínio físico, especialmente destacando-se na resolução de problemas de nível olímpico. Apresentamos o P1, uma família de modelos de raciocínio físico de código aberto treinados inteiramente por meio de aprendizado por reforço (RL). Entre eles, o P1-235B-A22B é o primeiro modelo de código aberto com desempenho de medalha de ouro na mais recente Olimpíada Internacional de Física (IPhO 2025), conquistando 12 medalhas de ouro em 13 competições internacionais/regionais de física em 2024/2025. O P1-30B-A3B também supera quase todos os outros modelos de código aberto na IPhO 2025, obtendo uma medalha de prata. Equipado ainda com um framework agentivo chamado PhysicsMinions, o P1-235B-A22B+PhysicsMinions alcança o primeiro lugar geral na IPhO 2025 e obtém a maior pontuação média nas 13 competições de física. Além da física, os modelos P1 também apresentam um desempenho notável em outras tarefas de raciocínio, como matemática e programação, demonstrando a grande generalizabilidade da série P1.
Apresentamos o Uni-MoE 2.0 da família Lychee. Como um modelo grande omnimodal (OLM) totalmente de código aberto, ele avança substancialmente a série Uni-MoE da Lychee na compreensão, raciocínio e geração multimodal centrados em linguagem. Com base na arquitetura densa Qwen2.5-7B, construímos o Uni-MoE-2.0-Omni desde o zero através de três contribuições principais: um design dinâmico de Mistura de Especialistas (MoE), uma estratégia de treino progressivo aprimorada com uma estratégia iterativa de reforço e uma técnica criteriosa de correspondência de dados multimodal. É capaz de compreensão omnimodal, bem como de gerar imagens, texto e fala. Arquitetonicamente, a nossa nova estrutura MoE equilibra eficiência computacional e capacidade para 10 entradas cross-modais usando especialistas partilhados, encaminhados e nulos, enquanto a nossa Omni-Modalidade 3D RoPE garante o alinhamento espaço-temporal cross-modal na camada de self-attention. Para o treino, após o pré-treino cross-modal, usamos uma estratégia de afinação supervisionada progressiva que ativa especialistas específicos por modalidade e é aprimorada por uma composição equilibrada de dados e um método iterativo GSPO-DPO para estabilizar o treino de RL e melhorar o raciocínio. Em termos de dados, o modelo base, treinado com aproximadamente 75 mil milhões de tokens de dados multimodais de código aberto, está equipado com tokens especiais de geração de fala e imagem, permitindo-lhe aprender estas tarefas generativas condicionando as suas saídas em pistas linguísticas. Uma avaliação extensa em 85 benchmarks demonstra que o nosso modelo alcança um desempenho SOTA ou altamente competitivo face aos principais OLMs, superando o Qwen2.5-Omni (treinado com 1,2T tokens) em mais de 50 dos 76 benchmarks. Os pontos fortes principais incluem a compreensão de vídeo (+7% média em 8), a compreensão omnimodal (+7% média em 4) e o raciocínio audiovisual (+4%). Ele também avança no processamento de fala de longa duração (reduzindo a WER em 4,2%) e lidera no processamento de imagem de baixo nível e na geração controlável em 5 métricas.
Apresentamos o Part-X-MLLM, um modelo de linguagem multimodal 3D nativo que unifica diversas tarefas tridimensionais, formulando-as como programas em uma gramática estruturada e executável. Dada uma nuvem de pontos RGB e um prompt em linguagem natural, nosso modelo gera autoregressivamente uma única sequência de tokens coerente que codifica caixas delimitadoras a nível de partes, descrições semânticas e comandos de edição. Essa saída estruturada serve como uma interface versátil para acionar módulos subsequentes com consciência geométrica, destinados à geração e edição baseadas em partes. Ao desacoplar o planejamento simbólico da síntese geométrica, nossa abordagem permite que qualquer mecanismo de geometria compatível seja controlado por meio de um único frontend nativo em linguagem. Pré-treinamos uma arquitetura de codificador duplo para separar a estrutura da semântica e ajustamos o modelo por instrução em um conjunto de dados em larga escala centrado em partes. Experimentos demonstram que nosso modelo se destaca na produção de planos estruturados de alta qualidade, permitindo um desempenho de ponta em Q&A fundamentado, geração composicional e edição localizada por meio de uma única interface unificada. Página do projeto: https://chunshi.wang/Part-X-MLLM/
Embora a geração com consciência do raciocínio vise melhorar o desempenho em tarefas complexas, identificamos uma falha crítica na qual as abordagens sequenciais e autoregressivas existentes podem, paradoxalmente, degradar o desempenho devido à propagação de erros. Para analisar sistematicamente esta questão, propomos o ParaBench, um novo benchmark concebido para avaliar as modalidades de saída de texto e imagem. A nossa análise utilizando o ParaBench revela que esta degradação de desempenho está fortemente correlacionada com um baixo alinhamento entre o raciocínio gerado e a imagem final. Para resolver isto, propomos uma estrutura de difusão multimodal paralela, a MMaDA-Parallel, que permite uma interação contínua e bidirecional entre texto e imagens ao longo de toda a trajetória de remoção de ruído. A MMaDA-Parallel é treinada com afinação supervisionada e depois otimizada através do Aprendizado por Reforço Paralelo (ParaRL), uma estratégia inovadora que aplica recompensas semânticas ao longo da trajetória para impor consistência cross-modal. Experiências validam que o nosso modelo melhora significativamente o alinhamento cross-modal e a consistência semântica, alcançando uma melhoria de 6,9% no Alinhamento da Saída no ParaBench em comparação com o modelo state-of-the-art, Bagel, estabelecendo um paradigma mais robusto para a síntese de imagens com consciência do raciocínio. O nosso código é de código aberto em https://github.com/tyfeld/MMaDA-Parallel.
Os modelos de difusão para remoção de ruído atuais não "removem ruído" no sentido clássico, ou seja, eles não predizem diretamente imagens limpas. Em vez disso, as redes neurais predizem ruído ou uma quantidade ruidosa. Neste artigo, sugerimos que predizer dados limpos e predizer quantidades ruidosas são fundamentalmente diferentes. De acordo com a hipótese da variedade (manifold), os dados naturais devem residir em uma variedade de baixa dimensão, enquanto as quantidades ruidosas não. Com essa premissa, defendemos modelos que predizem diretamente dados limpos, o que permite que redes aparentemente com capacidade limitada operem efetivamente em espaços de muito alta dimensão. Demonstramos que Transformers simples, com grandes patches de pixels, podem ser modelos generativos robustos: sem uso de tokenizador, sem pré-treinamento e sem perda adicional. Nossa abordagem é conceitualmente nada mais do que "Apenas Transformers de imagem", ou JiT, como a chamamos. Reportamos resultados competitivos usando JiT com grandes tamanhos de patch de 16 e 32 no ImageNet em resoluções de 256 e 512, onde a predição de quantidades ruidosas de alta dimensão pode falhar catastróficamente. Com nossas redes mapeando de volta para os fundamentos da variedade, nossa pesquisa retorna ao básico e busca um paradigma autocontido para difusão baseada em Transformer em dados naturais brutos.
Os Modelos de Linguagem de Grande Porte demonstraram forte potencial como rerranqueadores para melhorar o desempenho geral dos sistemas de RAG. No entanto, os paradigmas de rerranqueamento existentes estão limitados por um dilema teórico e prático central: os métodos Pontuais, embora simples e altamente flexíveis, avaliam documentos de forma independente, tornando-os propensos à "Armadilha da Miopia na Ordenação", negligenciando a importância relativa entre os documentos. Em contraste, os métodos Baseados em Lista podem perceber o contexto global de ordenação, mas sofrem com a inherente "Rigidez da Lista", levando a sérios problemas de escalabilidade e flexibilidade ao lidar com grandes conjuntos de candidatos. Para enfrentar esses desafios, propomos o paradigma de rerranqueamento Baseado em Grupos. Nesta abordagem, a consulta e um grupo de documentos candidatos são alimentados conjuntamente no modelo, que realiza comparações dentro do grupo para atribuir pontuações de relevância individuais a cada documento. Este projeto mantém a flexibilidade dos métodos Pontuais, permitindo ao mesmo tempo a capacidade comparativa dos métodos Baseados em Lista. Adotamos ainda o GRPO para o treino do modelo, equipado com uma função de recompensa heterogénea que integra métricas de ordenação com uma recompensa distribucional destinada a alinhar as distribuições de pontuação entre grupos. Para superar o estrangulamento causado pela escassez de dados rotulados de alta qualidade, propomos ainda um *pipeline* inovador para sintetizar dados de recuperação e ordenação de alta qualidade. Os dados resultantes podem ser utilizados não apenas para treinar o rerranqueador, mas também para treinar o recuperador. Experiências extensivas validam a eficácia da nossa abordagem. Em dois benchmarks de recuperação intensiva em raciocínio, BRIGHT e R2MED.
A modelagem 3D está a evoluir de representações visuais estáticas para recursos físicos articulados que podem ser usados diretamente em simulação e interação. No entanto, a maioria dos métodos de geração 3D existentes ignora propriedades físicas e de articulação fundamentais, limitando assim a sua utilidade em IA incorporada. Para colmatar esta lacuna, introduzimos o PhysX-Anything, o primeiro quadro generativo de modelos 3D físicos prontos para simulação que, dada uma única imagem do mundo real, produz recursos 3D de alta qualidade prontos para simulação, com geometria, articulação e atributos físicos explícitos. Especificamente, propomos o primeiro modelo generativo 3D físico baseado em VLM (Modelo de Linguagem de Visão), juntamente com uma nova representação 3D que tokeniza a geometria de forma eficiente. Este método reduz o número de tokens em 193 vezes, permitindo a aprendizagem explícita de geometria dentro dos limites padrão de tokens de VLM sem introduzir tokens especiais durante o *fine-tuning* e melhorando significativamente a qualidade generativa. Além disso, para superar a diversidade limitada dos conjuntos de dados 3D físicos existentes, construímos um novo conjunto de dados, o PhysX-Mobility, que expande as categorias de objetos em conjuntos de dados 3D físicos anteriores em mais de 2 vezes e inclui mais de 2.000 objetos comuns do mundo real com anotações físicas ricas. Experiências extensivas no PhysX-Mobility e em imagens do mundo real demonstram que o PhysX-Anything oferece um forte desempenho generativo e uma generalização robusta. Além disso, experiências baseadas em simulação num ambiente do estilo MuJoCo validam que os nossos recursos prontos para simulação podem ser usados diretamente para a aprendizagem de políticas robóticas com contacto intensivo. Acreditamos que o PhysX-Anything pode potenciar substancialmente uma ampla gama de aplicações a jusante, especialmente em IA incorporada e simulação baseada em física.
A rápida evolução dos modelos generativos de vídeo deslocou seu foco da produção de resultados visualmente plausíveis para o enfrentamento de tarefas que exigem plausibilidade física e consistência lógica. No entanto, apesar de avanços recentes, como o raciocínio de cadeia de quadros do Veo 3, ainda não está claro se esses modelos podem exibir capacidades de raciocínio semelhantes aos grandes modelos de linguagem (LLMs). Os benchmarks existentes avaliam predominantemente a fidelidade visual e a coerência temporal, falhando em capturar habilidades de raciocínio de ordem superior. Para preencher essa lacuna, propomos o TiViBench, um benchmark hierárquico especificamente concebido para avaliar as capacidades de raciocínio de modelos de geração de imagem para vídeo (I2V). O TiViBench avalia sistematicamente o raciocínio em quatro dimensões: i) Raciocínio Estrutural e Busca, ii) Raciocínio de Padrões Espaciais e Visuais, iii) Raciocínio Simbólico e Lógico, e iv) Planeamento de Ações e Execução de Tarefas, abrangendo 24 cenários de tarefas diversos em 3 níveis de dificuldade. Através de avaliações extensivas, demonstramos que os modelos comerciais (por exemplo, Sora 2, Veo 3.1) exibem um potencial de raciocínio mais forte, enquanto os modelos de código aberto revelam um potencial inexplorado que permanece limitado pela escala de treino e diversidade de dados insuficientes. Para liberar ainda mais este potencial, introduzimos o VideoTPO, uma estratégia de teste simples mas eficaz, inspirada na otimização de preferências. Ao realizar uma autoanálise por um LLM sobre candidatos gerados para identificar pontos fortes e fracos, o VideoTPO melhora significativamente o desempenho do raciocínio sem exigir treino adicional, dados ou modelos de recompensa. Juntos, o TiViBench e o VideoTPO abrem caminho para avaliar e avançar o raciocínio em modelos de geração de vídeo, estabelecendo uma base para pesquisas futuras nesta área emergente.
Os frameworks automatizados de testes de invasão (red teaming) para Modelos de Linguagem de Grande Porte (LLMs) tornaram-se cada vez mais sofisticados, mas compartilham uma limitação fundamental: sua lógica de violação (jailbreak) está confinada à seleção, combinação ou refinamento de estratégias de ataque pré-existentes. Isso limita sua criatividade e impede que inventem autonomamente mecanismos de ataque totalmente novos. Para superar essa lacuna, introduzimos o EvoSynth, um framework autónomo que muda o paradigma do planeamento de ataques para a síntese evolutiva de métodos de violação. Em vez de refinar instruções (prompts), o EvoSynth emprega um sistema multiagente para projetar, evoluir e executar autónomamente novos algoritmos de ataque baseados em código. Crucialmente, ele apresenta um ciclo de autocorreção a nível de código, permitindo que reescreva iterativamente sua própria lógica de ataque em resposta a falhas. Através de experiências extensivas, demonstramos que o EvoSynth não apenas estabelece um novo estado da arte ao alcançar uma Taxa de Sucesso de Ataque (ASR) de 85,5% contra modelos altamente robustos como o Claude-Sonnet-4.5, mas também gera ataques significativamente mais diversificados do que os métodos existentes. Disponibilizamos nosso framework para facilitar pesquisas futuras nesta nova direção de síntese evolutiva de métodos de violação. O código está disponível em: https://github.com/dongdongunique/EvoSynth.
Os agentes baseados em grandes modelos de linguagem (LLMs) estão transformando os dispositivos digitais de ferramentas passivas em colaboradores inteligentes e proativos. No entanto, a maioria dos frameworks existentes permanece confinada a um único sistema operacional ou dispositivo, tornando os fluxos de trabalho entre dispositivos frágeis e amplamente manuais. Apresentamos o UFO³, um sistema que unifica endpoints heterogêneos – desktops, servidores, dispositivos móveis e computação de borda – em um único tecido de orquestração. O UFO³ modela cada requisição do usuário como uma **Constelação de Tarefas** mutável: um DAG (Grafo Acíclico Direcionado) distribuído de subtarefas atômicas (**Estrelas de Tarefa**) com dependências explícitas de controle e dados (**Linhas de Estrela de Tarefa**). A Constelação de Tarefas evolui continuamente à medida que os resultados fluem dos dispositivos distribuídos, permitindo execução assíncrona, recuperação adaptativa e otimização dinâmica. Um **Orquestrador de Constelações** executa tarefas de forma segura e assíncrona enquanto aplica atualizações dinâmicas no DAG, e o **Protocolo de Interação de Agentes (AIP)** fornece canais persistentes e de baixa latência para o despacho confiável de tarefas e o fluxo de resultados. Esses designs dissolvem as fronteiras tradicionais entre dispositivos e plataformas, permitindo que os agentes colaborem perfeitamente e amplifiquem sua inteligência coletiva. Avaliamos o UFO³ no NebulaBench, um benchmark com 55 tarefas entre dispositivos, abrangendo 5 máquinas e 10 categorias. O UFO³ alcança 83,3% de conclusão de subtarefas, 70,9% de sucesso na tarefa, expõe paralelismo com uma largura média de 1,72 e reduz a latência de ponta a ponta em 31% em relação a uma linha de base sequencial. Experimentos de injeção de falhas demonstram degradação graciosa e recuperação sob falhas transitórias e permanentes de agentes. Esses resultados mostram que o UFO³ alcança uma orquestração de tarefas precisa, eficiente e resiliente em dispositivos heterogêneos, unindo agentes isolados em um tecido de computação coerente e adaptativo que se estende por toda a paisagem da computação ubíqua.
Os modelos visão-linguagem-ação (VLA) têm demonstrado recentemente um desempenho promissor em diversas tarefas de IA incorporada, mas ainda apresentam deficiências em confiabilidade e generalização, especialmente quando implantados em diferentes embodimentos ou ambientes do mundo real. Neste trabalho, apresentamos o NORA-1.5, um modelo VLA construído a partir do backbone pré-treinado NORA, adicionando-lhe um especialista de ação baseado em *flow matching*. Sozinha, essa melhoria arquitetônica gera ganhos substanciais de desempenho, permitindo que o NORA-1.5 supere o NORA e vários modelos VLA state-of-the-art em benchmarks simulados e do mundo real. Para melhorar ainda mais a robustez e o sucesso das tarefas, desenvolvemos um conjunto de modelos de recompensa para o pós-treinamento de políticas VLA. Nossas recompensas combinam (i) um modelo de mundo (MW) condicionado por ação que avalia se as ações geradas conduzem ao objetivo desejado, e (ii) uma heurística de desvio do *ground truth* que distingue boas ações de ações ruins. Utilizando esses sinais de recompensa, construímos conjuntos de dados de preferência e adaptamos o NORA-1.5 a embodimentos específicos por meio de otimização direta de preferência (DPO). Avaliações extensivas mostram que o pós-treinamento orientado por recompensa melhora consistentemente o desempenho tanto em simulação quanto em configurações com robôs reais, demonstrando ganhos significativos na confiabilidade do modelo VLA por meio de modelos de recompensa simples, porém eficazes. Nossas descobertas destacam o NORA-1.5 e o pós-treinamento guiado por recompensa como um caminho viável para agentes incorporados mais confiáveis e adequados para implantação no mundo real.
A família Segment Anything Model (SAM) tornou-se um modelo de base de visão amplamente adotado, mas sua capacidade de controlar a granularidade da segmentação permanece limitada. Os usuários frequentemente precisam refinar os resultados manualmente - adicionando mais prompts ou selecionando entre máscaras pré-geradas - para alcançar o nível de detalhe desejado. Este processo pode ser ambíguo, pois o mesmo prompt pode corresponder a várias máscaras plausíveis, e a coleta de anotações densas em todas as granularidades é proibitivamente cara, tornando soluções supervisionadas inviáveis. Para superar esta limitação, introduzimos o UnSAMv2, que permite segmentar qualquer coisa em qualquer granularidade sem anotações humanas. O UnSAMv2 estende a estratégia de dividir e conquistar do UnSAM ao descobrir pares abundantes de máscara-granularidade e introduzir uma nova incorporação de controle de granularidade que permite um controle contínuo e preciso sobre a escala de segmentação. Notavelmente, com apenas 6K imagens não rotuladas e 0,02% de parâmetros adicionais, o UnSAMv2 aprimora substancialmente o SAM-2, alcançando a segmentação de qualquer coisa em qualquer granularidade em tarefas de segmentação interativa, de imagem inteira e de vídeo. Avaliado em mais de 11 benchmarks, o UnSAMv2 melhora NoC_{90} (5,69 → 4,75), 1-IoU (58,0 → 73,1) e AR_{1000} (49,6 → 68,3), demonstrando que pequenas quantidades de dados não rotulados com um método de autoaprendizagem consciente da granularidade podem desbloquear o potencial dos modelos de base de visão.
Agentes multimodais baseados em LLMs demonstraram recentemente capacidades impressionantes em navegação web, permitindo que completem tarefas complexas de navegação em diversos domínios. No entanto, os agentes atuais enfrentam dificuldades com erros repetitivos e carecem da capacidade de aprender com experiências passadas entre sessões, limitando sua robustez de longo prazo e eficiência amostral. Apresentamos o WebCoach, uma estrutura auto-evolutiva independente de modelo que equipa agentes de navegação web com memória persistente entre sessões, permitindo um melhor planejamento de longo prazo, reflexão e aprendizado contínuo sem necessidade de retreinamento. O WebCoach consiste em três componentes principais: (1) um WebCondenser, que padroniza logs brutos de navegação em resumos concisos; (2) um Armazenamento de Memória Externa, que organiza trajetórias completas como experiências episódicas; e (3) um Coach, que recupera experiências relevantes com base em similaridade e recenticidade, e decide se injeta conselhos específicos para a tarefa no agente através de hooks de tempo de execução. Este projeto capacita os agentes web a acessarem memória de longo prazo além de sua janela de contexto nativa, melhorando a robustez em tarefas complexas de navegação. Além disso, o WebCoach alcança a auto-evolução ao curar continuamente a memória episódica a partir de novas trajetórias de navegação, permitindo que os agentes melhorem com o tempo sem retreinamento. Avaliações no benchmark WebVoyager demonstram que o WebCoach melhora consistentemente o desempenho de agentes de uso de navegador em três backbones de LLM diferentes. Com um modelo de 38B, aumenta as taxas de sucesso de tarefas de 47% para 61%, enquanto reduz ou mantém o número médio de etapas. Notavelmente, modelos base menores com WebCoach alcançam desempenho comparável ao mesmo agente web usando GPT-4o.
Os Modelos de Linguagem de Grande Porte (LLMs) estão a remodelar quase todas as indústrias, incluindo a engenharia de software. Nos últimos anos, foram propostos vários agentes baseados em LLMs para resolver problemas de software do mundo real. Estes agentes de software são tipicamente equipados com um conjunto de ferramentas de programação e podem decidir autonomamente as próximas ações para formar trajetórias completas para resolver tarefas de software de ponta a ponta. Embora sejam promissores, normalmente exigem um design dedicado e podem ainda ser subótimas, uma vez que pode ser extremamente desafiante e dispendioso esgotar todo o espaço de design de *scaffold* do agente. Reconhecendo que os agentes de software são inerentemente software que pode ser posteriormente refinado/modificado, os investigadores propuseram recentemente vários agentes de software com capacidade de auto-aprimoramento, incluindo a Máquina de Darwin-Gödel (DGM). Entretanto, estes agentes de auto-aprimoramento exigem um treino offline dispendioso em *benchmarks* específicos e podem não generalizar bem entre diferentes LLMs ou *benchmarks*. Neste artigo, propomos o Live-SWE-agent, o primeiro agente de software *live* que pode evoluir-se de forma autónoma e contínua *on-the-fly* durante o tempo de execução, ao resolver problemas de software do mundo real. Mais especificamente, o Live-SWE-agent começa com o *scaffold* de agente mais básico, com acesso apenas a ferramentas de *bash* (por exemplo, mini-SWE-agent), e evolui autonomamente a sua própria implementação de *scaffold* enquanto resolve problemas de software do mundo real. A nossa avaliação no amplamente estudado *benchmark* SWE-bench Verified mostra que o Live-SWE-agent pode alcançar uma impressionante taxa de resolução de 75,4% sem escalamento no tempo de teste, superando todos os agentes de software *open-source* existentes e aproximando-se do desempenho da melhor solução proprietária. Além disso, o Live-SWE-agent supera os agentes de software mais avançados, desenhados manualmente, no recente *benchmark* SWE-Bench Pro, alcançando a melhor taxa de resolução conhecida de 45,8%.
Os dados de observação da Terra apresentam um desafio único: são espaciais como imagens, sequenciais como vídeo ou texto e altamente multimodais. Apresentamos o OlmoEarth: um modelo de base multimodal e espaço-temporal que emprega uma nova formulação de aprendizado autossupervisionado, estratégia de mascaramento e função de perda, todos projetados para o domínio da observação da Terra. O OlmoEarth alcança um desempenho de última geração em comparação com outros 12 modelos de base em uma variedade de benchmarks de pesquisa e tarefas do mundo real de parceiros externos. Na avaliação de *embeddings*, o OlmoEarth alcança o melhor desempenho em 15 de 24 tarefas, e com o ajuste fino completo é o melhor em 19 de 29 tarefas. Implantamos o OlmoEarth como a espinha dorsal de uma plataforma de ponta a ponta para coleta de dados, rotulagem, treinamento e inferência de modelos de observação da Terra. A Plataforma OlmoEarth coloca modelos de base de fronteira e ferramentas poderosas de gerenciamento de dados nas mãos de organizações sem fins lucrativos e ONGs que trabalham para resolver os maiores problemas do mundo. O código-fonte do OlmoEarth, os dados de treinamento e os pesos pré-treinados estão disponíveis em https://github.com/allenai/olmoearth_pretrain.
A aprendizagem contextual (ICL) — a capacidade de um modelo de inferir e aplicar padrões abstratos a partir de exemplos fornecidos na sua entrada — tem sido amplamente estudada em grandes modelos de linguagem treinados para previsão do próximo token em texto humano. Na verdade, trabalhos anteriores frequentemente atribuem este comportamento emergente a propriedades estatísticas distintivas da linguagem humana. Isto levanta uma questão fundamental: pode a ICL surgir organicamente noutros domínios de sequência, puramente através de treino preditivo em larga escala? Para explorar isto, voltamo-nos para sequências genómicas, um domínio simbólico alternativo rico em estrutura estatística. Especificamente, estudamos o modelo genómico Evo2, treinado predominantemente na previsão do próximo nucleótido (A/T/C/G), numa escala comparável a modelos de linguagem de médio porte. Desenvolvemos uma estrutura experimental controlada que compreende tarefas de raciocínio simbólico instanciadas em formas linguísticas e genómicas, permitindo uma comparação direta da ICL entre modelos genómicos e linguísticos. Os nossos resultados mostram que os modelos genómicos, tal como as suas contrapartes linguísticas, exibem ganhos log-lineares na indução de padrões à medida que o número de demonstrações contextuais aumenta. Tanto quanto sabemos, esta é a primeira evidência de ICL emergente organicamente em sequências genómicas, apoiando a hipótese de que a ICL surge como consequência da modelação preditiva em larga escala sobre dados ricos. Estas descobertas estendem a meta-aprendizagem emergente para além da linguagem, apontando para uma visão unificada e agnóstica à modalidade da aprendizagem contextual.
Os Grandes Modelos de Linguagem (LLMs) avançaram significativamente a área de questionamento e resposta sobre grafos de conhecimento (KGQA), mas os sistemas existentes são normalmente otimizados para retornar respostas altamente relevantes, porém previsíveis. Uma capacidade ausente, mas desejada, é explorar os LLMs para sugerir respostas surpreendentes e novas ("serendipitous"). Neste artigo, definimos formalmente a tarefa de KGQA com consciência da serendipidade e propomos o framework SerenQA para avaliar a capacidade dos LLMs de descobrir insights inesperados em tarefas científicas de KGQA. O SerenQA inclui uma métrica rigorosa de serendipidade baseada em relevância, novidade e surpresa, juntamente com um benchmark anotado por especialistas, derivado do Clinical Knowledge Graph e focado no reposicionamento de fármacos. Adicionalmente, apresenta um pipeline de avaliação estruturado que abrange três subtarefas: recuperação de conhecimento, raciocínio sobre subgrafos e exploração da serendipidade. Nossos experimentos revelam que, embora os LLMs de última geração tenham um bom desempenho na recuperação, eles ainda lutam para identificar descobertas genuinamente surpreendentes e valiosas, destacando uma margem significativa para melhorias futuras. Nossos recursos curados e a versão estendida estão disponíveis em: https://cwru-db-group.github.io/serenQA.
Os Modelos de Linguagem Multimodais de Grande Porte são cada vez mais aplicados à imagem biomédica, mas o raciocínio científico para a microscopia continua limitado pela escassez de dados de treino em larga escala e de alta qualidade. Apresentamos o MicroVQA++, um corpus de VQA (Visual Question Answering) para microscopia de alta qualidade e larga escala, derivado do arquivo BIOMIC, construído em três fases. A primeira fase inicia a supervisão a partir de pares legenda-figura validados por especialistas, provenientes de artigos revistos por pares. A segunda fase aplica o HiCQA-Graph, um novo grafo heterogéneo sobre imagens, legendas e perguntas-respostas (QA) que funde a implicação textual baseada em NLI (Natural Language Inference), o alinhamento visão-linguagem baseado no CLIP e sinais de agente para identificar e filtrar amostras inconsistentes. A terceira fase utiliza um agente Modelo de Linguagem Multimodal de Grande Porte (MLLM) para gerar questões de escolha múltipla (MCQ), seguidas de uma triagem humana. A versão resultante compreende uma grande divisão de treino e uma divisão de teste verificada por humanos, cuja distribuição de amostras difíceis ao nível de Bloom excede o benchmark MicroVQA. O nosso trabalho oferece (i) um conjunto de dados controlado em qualidade que associa a literatura especializada com a filtragem baseada em grafos e o refinamento humano; (ii) o HiCQA-Graph, o primeiro grafo que modela conjuntamente (imagem, legenda, QA) para filtragem de consistência cross-modal; (iii) evidências de que uma construção cuidadosa dos dados permite que MLLMs à escala de 4B atinjam um desempenho competitivo no raciocínio em microscopia (comparável, por exemplo, ao GPT-4) e alcancem um desempenho state-of-the-art entre os MLLMs de código aberto. O código e o conjunto de dados serão disponibilizados após a conclusão do processo de revisão.
Os Modelos de Visão-Linguagem (VLMs) destacam-se na inferência zero-shot, mas frequentemente apresentam degradação sob mudanças de domínio durante o teste. Por esta razão, estratégias de adaptação episódica em tempo de teste emergiram recentemente como técnicas poderosas para adaptar VLMs a uma única imagem não rotulada. No entanto, as estratégias de adaptação existentes, como a otimização de prompts em tempo de teste, geralmente requerem retropropagação através de grandes pesos do codificador ou alteração de componentes centrais do modelo. Neste trabalho, introduzimos o Direcionamento em Tempo de Teste com Consciência Espectral (STS), uma estrutura de adaptação leve que extrai um subespaço espectral dos embeddings textuais para definir direções semânticas principais e aprende a direcionar representações latentes de forma espectralmente consciente, adaptando um pequeno número de parâmetros de desvio por amostra para minimizar a entropia entre visões aumentadas. O STS opera inteiramente durante a inferência no espaço latente, sem retropropagação através ou modificação dos codificadores congelados. Com base em protocolos de avaliação padrão, nossos experimentos abrangentes demonstram que o STS supera amplamente ou compara-se favoravelmente com os métodos state-of-the-art de adaptação em tempo de teste, enquanto introduz apenas um punhado de parâmetros adicionais e alcança velocidades de inferência até 8x mais rápidas com uma pegada de memória 12x menor do que a otimização convencional de prompts em tempo de teste. O código está disponível em https://github.com/kdafnis/STS.
Os grandes modelos de linguagem (LLMs) demonstraram desempenho notável em uma ampla gama de tarefas, contudo, a maioria dos modelos de alto desempenho permanece de código fechado ou parcialmente aberto, limitando a transparência e a reprodutibilidade. Neste trabalho, apresentamos Instella, uma família de modelos de linguagem totalmente abertos com três bilhões de parâmetros, treinados inteiramente com dados e bases de código abertamente disponíveis. Alimentado pelas GPUs AMD Instinct MI300X, o Instella é desenvolvido por meio de pré-treinamento em larga escala, ajuste de instrução de propósito geral e alinhamento com preferências humanas. Apesar de utilizar substancialmente menos *tokens* de pré-treinamento do que muitos contemporâneos, o Instella alcança resultados de última geração entre modelos totalmente abertos e é competitivo com os principais modelos de pesos abertos de tamanho comparável. Lançamos ainda duas variantes especializadas: Instella-Long, capaz de lidar com contextos de até 128 mil *tokens*, e Instella-Math, um modelo focado em raciocínio aprimorado por meio de ajuste fino supervisionado e aprendizado por reforço em tarefas matemáticas. Juntas, estas contribuições estabelecem o Instella como uma alternativa transparente, de alto desempenho e versátil para a comunidade, avançando o objetivo de uma pesquisa em modelagem de linguagem aberta e reprodutível.
O alinhamento de representações de diferentes modalidades tem demonstrado recentemente fornecer insights sobre as similaridades estruturais e capacidades subsequentes de diferentes codificadores em diversos tipos de dados. Embora progressos significativos tenham sido alcançados no alinhamento de imagens com texto, a natureza temporal dos dados de vídeo permanece amplamente inexplorada neste contexto. Neste trabalho, realizamos o primeiro estudo abrangente sobre o alinhamento de representações vídeo-texto, investigando as capacidades de codificadores modernos de vídeo e linguagem. Nossas descobertas revelam vários insights-chave. Primeiro, demonstramos que o alinhamento cross-modal depende fortemente da riqueza dos dados visuais (imagens estáticas vs. vídeos com múltiplos quadros) e textuais (legenda única vs. uma coleção) fornecidos no momento do teste, especialmente ao utilizar codificadores de vídeo state-of-the-art. Propomos leis de escala paramétricas no momento do teste que capturam este comportamento e mostram um poder preditivo notável contra observações empíricas. Em segundo lugar, investigamos a correlação entre o alinhamento semântico e o desempenho em tarefas subsequentes semânticas e não semânticas, fornecendo evidências iniciais de que um forte alinhamento com codificadores de texto pode estar ligado a uma representação e compreensão de vídeo de propósito geral. Finalmente, correlacionamos o raciocínio temporal com o alinhamento cross-modal, fornecendo um campo de testes desafiador para modelos de visão e linguagem. No geral, nosso trabalho introduz o alinhamento vídeo-texto como uma forma informativa de *zero-shot* para investigar o poder de representação de diferentes codificadores para dados espaço-temporais. A página do projeto pode ser encontrada em https://video-prh.github.io/
Os modelos de linguagem grandes multimodais (MLLMs) demonstraram capacidades impressionantes de raciocínio e seguimento de instruções, porém seu espaço modal expandido introduz novos riscos composicionais de segurança que emergem de interações complexas texto-imagem. Tais acoplamentos cross-modais podem produzir semânticas inseguras mesmo quando as entradas individuais são benignas, expondo a frágil consciência de segurança dos MLLMs atuais. Embora trabalhos recentes aprimorem a segurança orientando os modelos a raciocinar sobre riscos potenciais, traços de raciocínio não regulamentados podem comprometer o alinhamento; embora a Otimização de Política Relativa de Grupo (GRPO) ofereça refinamento autorrecompensado sem supervisão humana, ela carece de sinais verificáveis para segurança do raciocínio. Para resolver isso, propomos o SafeGRPO, uma estrutura de alinhamento de segurança multimodal autorrecompensada que integra a construção de recompensas regradas na GRPO, permitindo a otimização interpretável e verificável da segurança do raciocínio. Desenvolvido com base no conjunto de dados SafeTag-VL-3K construído, com tags explícitas de segurança visual, textual e combinada, o SafeGRPO executa pensamento de segurança guiado por etapas para impor raciocínio estruturado e alinhamento comportamental, melhorando substancialmente a consciência de segurança multimodal, a robustez composicional e a estabilidade do raciocínio em diversos benchmarks sem sacrificar capacidades gerais.
À medida que os modelos de linguagem de grande escala (LLMs) evoluem para agentes autónomos sofisticados capazes de tarefas complexas de desenvolvimento de software, avaliar as suas capacidades no mundo real torna-se crucial. Embora benchmarks existentes, como o LoCoBench~qiu2025locobench, avaliem a compreensão de código em contexto longo, eles focam-se na avaliação de turno único e não conseguem capturar a natureza interativa multi-turno, os padrões de uso de ferramentas e o raciocínio adaptativo exigidos por agentes de codificação do mundo real. Apresentamos o LoCoBench-Agent, uma estrutura de avaliação abrangente concebida especificamente para avaliar agentes de LLM em fluxos de trabalho realistas de engenharia de software de contexto longo. A nossa estrutura estende os 8.000 cenários do LoCoBench para ambientes interativos de agentes, permitindo a avaliação sistemática de conversas multi-turno, eficiência no uso de ferramentas, recuperação de erros e consistência arquitetónica em sessões de desenvolvimento prolongadas. Introduzimos também uma metodologia de avaliação com 9 métricas nas dimensões de compreensão e eficiência. A nossa estrutura fornece aos agentes 8 ferramentas especializadas (operações de ficheiro, pesquisa, análise de código) e avalia-os em comprimentos de contexto que variam de 10K a 1M de tokens, permitindo uma avaliação precisa do desempenho em contexto longo. Através da avaliação sistemática dos modelos mais avançados, revelamos várias descobertas-chave: (1) os agentes exibem uma robustez notável em contexto longo; (2) existe um compromisso compreensão-eficiência com correlação negativa, onde uma exploração minuciosa aumenta a compreensão, mas reduz a eficiência; e (3) a eficiência da conversa varia drasticamente entre modelos, com padrões estratégicos de uso de ferramentas a diferenciarem os agentes de alto desempenho. Como o primeiro benchmark para agentes de LLM em contexto longo para engenharia de software, o LoCoBench-Agent estabelece uma base rigorosa para medir as capacidades dos agentes, identificar lacunas de desempenho e avançar o desenvolvimento de software autónomo em larga escala.
O diálogo persuasivo orientado a objetivos, exemplificado por aplicações como o telemarketing, requer um planeamento sofisticado de múltiplos turnos e uma rigorosa fidelidade factual, o que continua a ser um desafio significativo mesmo para os mais avançados Modelos de Linguagem de Grande Escala (LLMs). A falta de dados específicos da tarefa frequentemente limita trabalhos anteriores, e a aplicação direta de LLMs sofre de fragilidade estratégica e alucinação factual. Neste artigo, construímos e disponibilizamos primeiro o TeleSalesCorpus, o primeiro conjunto de dados de diálogo baseado no mundo real para este domínio. Propomos depois o AI-Salesman, um novo quadro conceptual com uma arquitetura de duplo estágio. Para a fase de treino, concebemos um algoritmo de aprendizagem por reforço supervisionado Bayesiano que aprende estratégias de vendas robustas a partir de diálogos ruidosos. Para a fase de inferência, introduzimos o Agente Guiado por Esquema Dinâmico (DOGA), que aproveita uma biblioteca de scripts pré-construída para fornecer orientação estratégica dinâmica, turno a turno. Além disso, concebemos um quadro de avaliação abrangente que combina métricas de granularidade fina para competências-chave de vendas com o paradigma LLM-como-Juiz. Os resultados experimentais demonstram que o nosso AI-Salesman proposto supera significativamente os modelos de base tanto em métricas automáticas como em avaliações humanas abrangentes, mostrando a sua eficácia em cenários persuasivos complexos.
Os sistemas atuais de geração aumentada por recuperação (RAG) geralmente utilizam uma arquitetura centralizada, o que acarreta alto custo na coleta, integração e gestão de dados, além de preocupações com a privacidade. Há uma grande necessidade de um sistema RAG descentralizado que permita aos modelos de base utilizar informações diretamente dos proprietários de dados, que mantêm controle total sobre suas fontes. No entanto, a descentralização traz um desafio: as numerosas fontes de dados independentes variam significativamente em confiabilidade, o que pode diminuir a precisão da recuperação e a qualidade das respostas. Para resolver isso, nosso sistema RAG descentralizado possui um mecanismo inovador de pontuação de confiabilidade que avalia dinamicamente cada fonte com base na qualidade das respostas que contribui para a geração e prioriza fontes de alta qualidade durante a recuperação. Para garantir transparência e confiança, o processo de pontuação é gerido com segurança através de contratos inteligentes baseados em blockchain, criando registros de confiabilidade verificáveis e invioláveis sem depender de uma autoridade central. Avaliamos nosso sistema descentralizado com dois modelos Llama (3B e 8B) em dois ambientes simulados onde seis fontes de dados possuem diferentes níveis de confiabilidade. Nosso sistema alcança uma melhoria de desempenho de +10,7% em relação à sua contraparte centralizada em ambientes de dados não confiáveis semelhantes ao mundo real. Notavelmente, aproxima-se do desempenho máximo dos sistemas centralizados em ambientes de dados idealmente confiáveis. A infraestrutura descentralizada permite uma gestão segura e confiável da pontuação, alcançando aproximadamente 56% de economia de custos marginais através de operações de atualização em lote. Nosso código e sistema são de código aberto em github.com/yining610/Reliable-dRAG.
O ultrassom (US) é uma das modalidades de imagem médica mais amplamente utilizadas, graças ao seu baixo custo, portabilidade, feedback em tempo real e ausência de radiação ionizante. No entanto, a interpretação de imagens de US permanece altamente dependente do operador e varia significativamente entre regiões anatômicas, protocolos de aquisição e tipos de dispositivos. Essas variações, juntamente com desafios únicos como *speckle*, baixo contraste e anotações padronizadas limitadas, dificultam o desenvolvimento de modelos de IA para ultrassom generalizáveis e eficientes em termos de anotação. Neste artigo, propomos o OpenUS, o primeiro modelo de base (*foundation model*) de ultrassom reproduzível e de código aberto, construído sobre uma grande coleção de dados públicos. O OpenUS emprega um *backbone* de visão baseado em Mamba, capturando dependências de longo alcance, tanto locais quanto globais, na imagem. Para extrair características ricas durante o pré-treinamento, introduzimos uma nova estrutura de mascaramento auto-adaptativa que combina aprendizado contrastivo com modelagem de imagem mascarada. Esta estratégia integra o mapa de atenção do professor com a perda de reconstrução do estudante, refinando adaptativamente o mascaramento clinicamente relevante para melhorar a eficácia do pré-treinamento. O OpenUS também aplica um cronograma de aprendizado dinâmico para ajustar progressivamente a dificuldade do processo de pré-treinamento. Para desenvolver o modelo de base, compilamos o maior conjunto de dados públicos de ultrassom até à data, compreendendo mais de 308 mil imagens de 42 conjuntos de dados publicamente disponíveis, abrangendo diversas regiões anatômicas, instituições, dispositivos de imagem e tipos de doenças. Nosso modelo OpenUS pré-treinado pode ser facilmente adaptado a tarefas específicas (*downstream tasks*) servindo como *backbone* para um ajuste fino (*fine-tuning*) eficiente em anotações. O código está disponível em https://github.com/XZheng0427/OpenUS.