Artigos de pesquisa em IA selecionados diariamente com traduções
O Rotary Position Embedding (RoPE) em modelos Transformer possui limites intrínsecos que enfraquecem a extrapolação de comprimento. Reinterpretamos o mapa de atenção com codificação posicional como um mapa de características ruidoso e propomos o Denoising Positional Encoding (DoPE), um método livre de treinamento baseado na entropia de matriz truncada para detectar bandas de frequência atípicas no mapa de características. Aproveitando as características de ruído do mapa de características, reparametrizamos ainda mais com uma distribuição Gaussiana sem parâmetros para alcançar uma extrapolação robusta. Nosso método revela teoricamente a causa subjacente do fenômeno de "atenção sumidouro" e sua conexão com a entropia de matriz truncada. Experimentos em tarefas de "agulha no palheiro" e aprendizado contextual com múltiplos exemplos demonstram que o DoPE melhora significativamente a precisão de recuperação e a estabilidade de raciocínio em contextos estendidos (até 64K tokens). Os resultados mostram que a estratégia de redução de ruído para embeddings posicionais mitiga efetivamente os sumidouros de atenção e restaura padrões de atenção equilibrados, fornecendo uma solução simples, porém poderosa, para melhorar a generalização de comprimento. Nossa página do projeto está disponível em: https://The-physical-picture-of-LLMs.github.io.
Os avanços recentes em modelos multimodais unificados (UMMs) têm permitido progressos impressionantes na compreensão e geração visual. No entanto, os conjuntos de dados e benchmarks existentes concentram-se principalmente em interações de turno único, não conseguindo capturar a natureza multiturno e dependente do contexto da criação e edição de imagens do mundo real. Para preencher esta lacuna, apresentamos o WEAVE, o primeiro conjunto para compreensão e geração cruzada intercalada em contexto. Nosso conjunto é composto por duas partes complementares. O WEAVE-100k é um conjunto de dados em larga escala com 100 mil amostras intercaladas abrangendo mais de 370 mil turnos de diálogo e 500 mil imagens, cobrindo tarefas de compreensão, edição e geração que exigem raciocínio sobre o contexto histórico. O WEAVEBench é um benchmark anotado humanamente com 100 tarefas baseadas em 480 imagens, apresentando uma estrutura de avaliação híbrida com juiz VLM baseada tanto na imagem de referência quanto na combinação da imagem original com instruções de edição que avalia as habilidades dos modelos em geração multiturno, memória visual e raciocínio de conhecimento mundial em diversos domínios. Experimentos demonstram que o treinamento no WEAVE-100k possibilita capacidades de compreensão visual, edição de imagens e colaboração compreensão-geração. Além disso, facilita que os UMMs desenvolvam capacidades emergentes de memória visual, enquanto avaliações extensivas no WEAVEBench expõem as limitações e desafios persistentes das abordagens atuais na geração e edição de imagens multiturno e conscientes do contexto. Acreditamos que o WEAVE proporciona uma perspectiva e base para estudar a compreensão e geração intercalada em contexto para a comunidade multimodal.
Apresentamos as Redes de Largura Virtual (VWN), uma estrutura que oferece os benefícios de representações mais amplas sem incorrer no custo quadrático de aumentar o tamanho da camada oculta. A VWN desacopla a largura representacional da largura da rede principal, expandindo o espaço de incorporação enquanto mantém o cálculo da rede principal quase constante. Em nosso experimento em larga escala, uma expansão de 8 vezes acelerou a otimização em mais de 2 vezes para a previsão do próximo token e em 3 vezes para a previsão dos próximos 2 tokens. A vantagem se amplia ao longo do treinamento, à medida que tanto a diferença de *loss* aumenta quanto a taxa de aceleração da convergência cresce, mostrando que a VWN não é apenas eficiente em tokens, mas também cada vez mais eficaz com a escala. Além disso, identificamos uma relação de escala aproximadamente log-linear entre a largura virtual e a redução do *loss*, oferecendo uma base empírica inicial e motivação para explorar a escala de largura virtual como uma nova dimensão da eficiência de modelos grandes.
A programação de interface de usuário (UI) é uma parte central, mas altamente complexa, do desenvolvimento moderno de software. Os avanços recentes em modelos de linguagem visual (VLMs) destacam o potencial da codificação automática de UIs, mas as abordagens atuais enfrentam duas limitações principais: as capacidades de codificação multimodal permanecem subdesenvolvidas, e os paradigmas de interação única fazem pouco uso do feedback visual iterativo. Nós abordamos esses desafios com um paradigma interativo de UI-para-código que reflete melhor os fluxos de trabalho do mundo real e eleva o limite máximo de desempenho atingível. Sob este paradigma, apresentamos o UI2Code^N, um modelo de linguagem visual treinado por meio de pré-treinamento, ajuste fino e aprendizado por reforço em etapas para alcançar melhorias fundamentais na codificação multimodal. O modelo unifica três capacidades principais: geração de UI-para-código, edição de UI e polimento de UI. Exploramos ainda o escalonamento em tempo de teste para geração interativa, permitindo o uso sistemático de feedback multi-turn. Experimentos em benchmarks de UI-para-código e polimento de UI mostram que o UI2Code^N estabelece um novo estado da arte entre os modelos de código aberto e alcança um desempenho comparável a modelos proprietários líderes, como Claude-4-Sonnet e GPT-5. Nosso código e modelos estão disponíveis em https://github.com/zai-org/UI2Code_N.
O advento dos Modelos Multimodais Unificados (UMMs) sinaliza uma mudança de paradigma na inteligência artificial, passando de uma perceção passiva para uma geração ativa e cross-modal. Apesar da sua capacidade sem precedentes para sintetizar informação, persiste uma lacuna crítica na avaliação: os *benchmarks* existentes avaliam principalmente a compreensão discriminativa ou a geração de imagem sem restrições separadamente, falhando em medir o processo cognitivo integrado do raciocínio generativo. Para colmatar esta lacuna, propomos que a construção geométrica constitui um campo de testes ideal, uma vez que exige inerentemente uma fusão da compreensão linguística e da geração visual precisa. Apresentamos o GGBench, um *benchmark* concebido especificamente para avaliar o raciocínio generativo geométrico. Ele fornece um quadro abrangente para diagnosticar sistematicamente a capacidade de um modelo não só de compreender e raciocinar, mas de construir ativamente uma solução, estabelecendo assim um padrão mais rigoroso para a próxima geração de sistemas inteligentes. Website do projeto: https://opendatalab-raiser.github.io/GGBench/.
Os Transformadores de Difusão, particularmente para geração de vídeo, alcançam qualidade notável, mas sofrem com a complexidade quadrática da atenção, resultando em latência proibitiva. Os métodos de aceleração existentes enfrentam um trade-off fundamental: estimar dinamicamente padrões esparsos de atenção em cada etapa de remoção de ruído incorre em alta sobrecarga computacional e erros de estimativa, enquanto padrões estáticos de esparsidade permanecem fixos e frequentemente subótimos durante todo o processo. Identificamos uma propriedade estrutural fundamental da atenção por difusão: seus padrões de esparsidade exibem forte coerência temporal entre as etapas de remoção de ruído. Blocos considerados não essenciais na etapa t geralmente permanecem assim na etapa t+δ. Aproveitando essa observação, introduzimos o LiteAttention, um método que explora a coerência temporal para permitir saltos computacionais evolutivos ao longo da sequência de remoção de ruído. Ao marcar blocos não essenciais precocemente e propagar decisões de salto adiante, o LiteAttention elimina cálculos de atenção redundantes sem sobrecargas de perfilamento repetitivas, combinando a adaptabilidade dos métodos dinâmicos com a eficiência dos estáticos. Implementamos um kernel LiteAttention altamente otimizado sobre o FlashAttention e demonstramos acelerações substanciais em modelos de difusão de vídeo de produção, sem degradação de qualidade. O código e detalhes de implementação serão disponibilizados publicamente.
O cenário da geração de vídeo está em transformação, evoluindo do foco na criação de clipes visualmente atraentes para a construção de ambientes virtuais que suportam interação e mantêm plausibilidade física. Esses avanços apontam para o surgimento de modelos de base para vídeo que funcionam não apenas como geradores visuais, mas também como modelos implícitos do mundo – modelos que simulam a dinâmica física, as interações agente-ambiente e o planejamento de tarefas que governam mundos reais ou imaginados. Este estudo fornece uma visão sistemática dessa evolução, conceptualizando os modelos modernos de base para vídeo como a combinação de dois componentes centrais: um modelo implícito do mundo e um renderizador de vídeo. O modelo do mundo codifica conhecimento estruturado sobre o mundo, incluindo leis físicas, dinâmicas de interação e comportamento de agentes. Ele funciona como um motor de simulação latente que permite raciocínio visual coerente, consistência temporal de longo prazo e planejamento orientado a objetivos. O renderizador de vídeo transforma essa simulação latente em observações visuais realistas, produzindo efetivamente vídeos como uma "janela" para o mundo simulado. Traçamos a progressão da geração de vídeo através de quatro gerações, nas quais as capacidades centrais avançam passo a passo, culminando finalmente em um modelo do mundo, construído sobre um modelo de geração de vídeo, que incorpora plausibilidade física intrínseca, interação multimodal em tempo real e capacidades de planejamento abrangendo múltiplas escalas espaço-temporais. Para cada geração, definimos suas características principais, destacamos trabalhos representativos e examinamos seus domínios de aplicação, como robótica, condução autónoma e jogos interativos. Finalmente, discutimos desafios em aberto e princípios de design para modelos do mundo de próxima geração, incluindo o papel da inteligência do agente na moldagem e avaliação desses sistemas. Uma lista atualizada de trabalhos relacionados é mantida neste link.
A descoberta de novos Líquidos Iônicos (LIs) é dificultada por desafios críticos na previsão de propriedades, incluindo dados limitados, baixa precisão de modelos e fluxos de trabalho fragmentados. Aproveitando o poder dos Modelos de Linguagem de Grande Porte (LLMs), introduzimos o AIonopedia, que, até onde sabemos, é o primeiro agente baseado em LLM para descoberta de LIs. Alimentado por um modelo de domínio multimodal aumentado por LLM para LIs, o AIonopedia permite previsões precisas de propriedades e incorpora uma arquitetura de busca hierárquica para triagem e design molecular. Treinado e avaliado em um novo conjunto de dados de LIs abrangente e curado, nosso modelo oferece um desempenho superior. Complementando esses resultados, avaliações em sistemas reportados na literatura indicam que o agente pode realizar modificações eficazes de LIs. Indo além de testes offline, a eficácia prática foi confirmada através de validação experimental em laboratório, na qual o agente demonstrou capacidades excepcionais de generalização em tarefas desafiadoras fora da distribuição de dados, destacando sua capacidade de acelerar a descoberta real de LIs.
Os modelos de linguagem multimodal (MLLMs) alcançaram progressos notáveis em tarefas de visão e linguagem, mas continuam a enfrentar dificuldades na compreensão espacial. Os MLLMs espaciais existentes frequentemente dependem de entradas 3D explícitas ou modificações específicas da arquitetura, permanecendo limitados por conjuntos de dados em larga escala ou supervisão esparsa. Para superar essas limitações, apresentamos o SpatialThinker, um MLLM com consciência 3D treinado com RL para integrar fundamentação espacial estruturada com raciocínio multi-etapas. O modelo simula a percepção espacial humana construindo um grafo de cena com objetos relevantes para a tarefa e suas relações espaciais, raciocinando em direção a uma resposta por meio de recompensas espaciais densas. O SpatialThinker consiste em duas contribuições principais: (1) um pipeline de síntese de dados que gera o STVQA-7K, um conjunto de dados de alta qualidade para VQA espacial, e (2) RL online com uma recompensa espacial densa multi-objetivo que reforça a fundamentação espacial. O SpatialThinker-7B supera a afinação supervisionada e a linha de base de RL esparso em benchmarks de compreensão espacial e VQA do mundo real, quase duplicando o ganho do modelo base em comparação com o RL esparso e superando o GPT-4o. Estes resultados demonstram a eficácia de combinar supervisão espacial com raciocínio alinhado por recompensa para permitir uma compreensão espacial 3D robusta com dados limitados, avançando os MLLMs em direção ao raciocínio visual de nível humano.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm sido impulsionados pelo aprendizado por reforço com recompensas verificáveis (RLVR) e pela escalagem em tempo de teste. No entanto, o comprimento limitado da saída dos LLMs restringe a profundidade de raciocínio alcançável em um único processo de inferência. Os sistemas de raciocínio multiagente oferecem uma alternativa promissora ao empregar múltiplos agentes, incluindo Solucionador, Verificador e Corretor, para refinar soluções iterativamente. Embora eficazes em modelos proprietários como o Gemini 2.5 Pro, esses sistemas lutam para generalizar em modelos de código aberto devido a capacidades insuficientes de crítica e correção. Para resolver isso, propomos o MarsRL, uma nova estrutura de aprendizado por reforço com paralelismo de pipeline agentivo, projetada para otimizar conjuntamente todos os agentes do sistema. O MarsRL introduz mecanismos de recompensa específicos por agente para mitigar o ruído nas recompensas e emprega treinamento inspirado em pipeline para aumentar a eficiência no tratamento de trajetórias longas. Aplicado ao Qwen3-30B-A3B-Thinking-2507, o MarsRL melhorou a precisão no AIME2025 de 86,5% para 93,3% e no BeyondAIME de 64,9% para 73,8%, superando inclusive o Qwen3-235B-A22B-Thinking-2507. Esses resultados destacam o potencial do MarsRL para avançar os sistemas de raciocínio multiagente e ampliar sua aplicabilidade em diversas tarefas de raciocínio.
Os detectores de vocabulário aberto alcançam desempenho impressionante no COCO, mas frequentemente falham em generalizar para conjuntos de dados do mundo real com classes fora da distribuição não tipicamente presentes em seu pré-treinamento. Em vez de simplesmente ajustar um modelo pesado de visão e linguagem (VLM) para novos domínios, introduzimos o RF-DETR, um transformer de detecção especializado e leve que descobre curvas de Pareto de precisão-latência para qualquer conjunto de dados alvo através de pesquisa de arquitetura neural (NAS) com compartilhamento de pesos. Nossa abordagem ajusta uma rede base pré-treinada em um conjunto de dados alvo e avalia milhares de configurações de rede com diferentes compensações precisão-latência sem necessidade de retreinamento. Adicionalmente, revisitamos os "ajustes parametrizáveis" para NAS para melhorar a transferibilidade dos DETRs para diversos domínios alvo. Notavelmente, o RF-DETR melhora significativamente os métodos state-of-the-art anteriores em tempo real no COCO e Roboflow100-VL. O RF-DETR (nano) alcança 48.0 AP no COCO, superando o D-FINE (nano) em 5.3 AP com latência similar, e o RF-DETR (2x-large) supera o GroundingDINO (tiny) em 1.2 AP no Roboflow100-VL enquanto executa 20x mais rápido. Até onde sabemos, o RF-DETR (2x-large) é o primeiro detector em tempo real a ultrapassar 60 AP no COCO. Nosso código está em https://github.com/roboflow/rf-detr
Para oferecer uma solução unificada e flexível para a comunicação diária de indivíduos com deficiência auditiva, introduzimos o paradigma Omni-Model na tecnologia assistiva e apresentamos o HI-TransPA, um assistente pessoal audiovisual orientado por instruções. O modelo funde fala indistinta com dinâmicas labiais de alta taxa de quadros, permitindo tanto tradução quanto diálogo dentro de uma única estrutura multimodal. Para enfrentar os desafios dos dados brutos ruidosos e heterogéneos e da adaptabilidade limitada dos Omni-Models existentes à fala com deficiência auditiva, construímos um pipeline abrangente de pré-processamento e curadoria que deteta marcos faciais, isola e estabiliza a região labial e avalia quantitativamente a qualidade das amostras multimodais. Essas pontuações de qualidade orientam uma estratégia de aprendizagem curricular que primeiro treina com amostras limpas e de alta confiança e progressivamente incorpora casos mais difíceis para fortalecer a robustez do modelo. Adotamos ainda um codificador SigLIP combinado com um Reamostrador 3D Unificado para codificar eficientemente o movimento labial de alta taxa de quadros. Experiências no nosso conjunto de dados HI-Dialogue, construído para este fim, mostram que o HI-TransPA alcança desempenho de ponta tanto em precisão literal quanto em fidelidade semântica. Este trabalho estabelece uma base para a aplicação de Omni-Models na tecnologia de comunicação assistiva, fornecendo uma estrutura de modelação de ponta a ponta e ferramentas de processamento essenciais para pesquisas futuras.
A otimização de sistemas de recomendação para objetivos além da precisão, como diversidade, novidade e personalização, é crucial para a satisfação do usuário a longo prazo. Para tanto, os profissionais da indústria acumularam vastas quantidades de conhecimento de domínio estruturado, que denominamos de *priors* humanos (por exemplo, taxonomias de itens, padrões temporais). Esse conhecimento é tipicamente aplicado por meio de ajustes *post-hoc* durante a classificação ou pós-classificação. No entanto, essa abordagem permanece dissociada do aprendizado do modelo central, o que é particularmente indesejável à medida que a indústria migra para modelos de base de recomendação generativa de ponta a ponta. Por outro lado, muitos métodos que visam a esses objetivos além da precisão frequentemente exigem modificações específicas da arquitetura e descartam esses valiosos *priors* humanos ao aprender a intenção do usuário de uma maneira totalmente não supervisionada. Em vez de descartar os *priors* humanos acumulados ao longo de anos de prática, introduzimos uma estrutura independente da arquitetura base que integra perfeitamente esses *priors* humanos diretamente no treinamento de ponta a ponta de recomendadores generativos. Com cabeças adaptadoras leves e condicionadas por *priors*, inspiradas em estratégias eficientes de decodificação de LLMs, nossa abordagem orienta o modelo a desembaraçar a intenção do usuário ao longo de eixos compreensíveis para humanos (por exemplo, tipos de interação, interesses de longo versus curto prazo). Também introduzimos uma estratégia de composição hierárquica para modelar interações complexas entre diferentes tipos de *priors*. Experimentos extensos em três conjuntos de dados de grande escala demonstram que nosso método melhora significativamente tanto os objetivos de precisão quanto os que vão além dela. Também mostramos que os *priors* humanos permitem que o modelo base aproveite de forma mais eficaz contextos mais longos e tamanhos de modelo maiores.
A avaliação da tradução em nível discursivo em domínios especializados permanece inadequada, apesar de sua centralidade para a disseminação do conhecimento e a comunicação académica translinguística. Embora essas traduções exijam coerência discursiva e rigorosa precisão terminológica, os métodos de avaliação atuais concentram-se predominantemente na precisão e fluidez em nível segmentar. Para superar esta limitação, apresentamos o DiscoX, um novo benchmark para tradução chinês-inglês em nível discursivo e especializado. Ele compreende 200 textos selecionados profissionalmente de 7 domínios, com um comprimento médio superior a 1700 tokens. Para avaliar o desempenho no DiscoX, desenvolvemos também o Metric-S, um sistema sem referência que fornece avaliações automáticas granulares em precisão, fluidez e adequação. O Metric-S demonstra forte consistência com os julgamentos humanos, superando significativamente as métricas existentes. Nossos experimentos revelam uma lacuna de desempenho notável: mesmo os LLMs mais avançados ainda ficam aquém dos especialistas humanos nessas tarefas. Esta constatação valida a dificuldade do DiscoX e ressalta os desafios que permanecem para alcançar a tradução automática de nível profissional. O benchmark e o sistema de avaliação propostos fornecem uma estrutura robusta para uma avaliação mais rigorosa, facilitando avanços futuros na tradução baseada em LLM.
Realizamos uma análise aprofundada das declarações formais e informais no benchmark miniF2F sob a perspectiva de um sistema de IA incumbido de participar de uma olimpíada de matemática composta pelos problemas do miniF2F. Nesse cenário, o modelo deve ler e compreender os problemas em linguagem natural, formalizá-los na linguagem Lean e, em seguida, prosseguir com a demonstração dos problemas, recebendo crédito por cada problema se a prova formal corresponder à declaração informal original apresentada ao modelo. Nossos resultados de avaliação revelam que a melhor precisão de tal pipeline pode ser de cerca de 36% usando os modelos state-of-the-art (SoTA) da literatura, consideravelmente inferior às precisões SoTA individuais de 97% e 69% reportadas na literatura de autoformalização e prova de teoremas. Analisando os modos de falha, rastreamos uma parcela considerável dessa queda até discrepâncias entre as declarações formais e informais em mais da metade dos problemas do miniF2F. Prosseguimos corrigindo todos os erros, discrepâncias e simplificações nas declarações formais e informais, e apresentamos o miniF2F-v2 com declarações e provas formais e informais totalmente verificadas. A avaliação do pipeline completo de prova de teoremas no miniF2F-v2 resulta numa precisão máxima de 70%, uma melhoria significativa em relação aos 40% no miniF2F original, mas ainda indicando um desalinhamento considerável entre os modelos de autoformalização e os provadores de teoremas. Nossa análise detalhada sugere que um benchmark de maior qualidade pode ajudar a comunidade a avaliar melhor o progresso no campo do raciocínio formal e também a diagnosticar de modo mais eficaz os modos de falha e sucesso dos modelos de autoformalização e prova de teoremas. Nosso conjunto de dados está disponível em https://github.com/roozbeh-yz/miniF2F_v2.
Os Modelos de Linguagem Aumentados por Ferramentas (TaLMs) podem invocar ferramentas externas para resolver problemas além de sua capacidade paramétrica. No entanto, permanece incerto se esses ganhos habilitados por ferramentas refletem um raciocínio confiável. Focando na ferramenta Code Interpreter, demonstramos que mesmo quando as ferramentas são selecionadas e executadas corretamente, os TaLMs tratam as saídas das ferramentas como substitutas do raciocínio, produzindo soluções que parecem corretas, mas carecem de justificação coerente. Denominamos esta falha de **Miopia Induzida por Ferramentas (TIM, do inglês *Tool-Induced Myopia*)**, e a estudamos usando o PYMATH, um *benchmark* com 1.679 problemas matemáticos de nível competitivo para os quais o código Python é útil, mas não suficiente. Desenvolvemos ainda uma suíte de avaliação multidimensional para quantificar a degradação do raciocínio nos TaLMs em relação às suas contrapartes sem ferramentas. Nossos resultados revelam que, embora os TaLMs obtenham um ganho de até 19,3 pontos percentuais na precisão da resposta final, seu comportamento de raciocínio se deteriora consistentemente (por exemplo, LLMs sem ferramentas vencem até 41,5% mais vezes em comparações pareadas do processo de raciocínio). Esta degradação intensifica-se com o uso de ferramentas; quanto mais frequentemente um modelo invoca ferramentas, menos coerente se torna seu raciocínio. Além disso, o uso de ferramentas desloca os erros de equívocos aritméticos para falhas de raciocínio global (lógica, premissa, criatividade); com a TIM presente em ~55% dos casos de alto risco. Finalmente, propomos uma estrutura baseada em otimização de preferências que realinha os TaLMs para usar ferramentas como evidência assistiva, melhorando tanto a precisão da resposta final quanto a profundidade do raciocínio sob uso de ferramentas. Códigos e dados estão disponíveis em: https://github.com/megagonlabs/TIM.
A emoção desempenha um papel fundamental na expressão baseada em vídeo, mas os sistemas existentes de geração de vídeo concentram-se predominantemente em métricas visuais de baixo nível, negligenciando as dimensões afetivas. Embora a análise de emoções tenha progredido no domínio visual, a comunidade de vídeo carece de recursos dedicados para ligar a compreensão emocional com tarefas generativas, particularmente em contextos estilizados e não realistas. Para colmatar esta lacuna, apresentamos o EmoVid, o primeiro conjunto de dados de vídeo multimodal e anotado emocionalmente, concebido especificamente para media criativa, que inclui animações de cartoon, excertos de filmes e *stickers* animados. Cada vídeo é anotado com etiquetas de emoção, atributos visuais (brilho, intensidade de cor, matiz) e legendas textuais. Através de uma análise sistemática, descobrimos padrões espaciais e temporais que ligam características visuais a perceções emocionais em diversas formas de vídeo. Com base nestas perceções, desenvolvemos uma técnica de geração de vídeo condicionada por emoção, através do *fine-tuning* do modelo Wan2.1. Os resultados mostram uma melhoria significativa tanto nas métricas quantitativas como na qualidade visual dos vídeos gerados para tarefas de texto-para-vídeo e imagem-para-vídeo. O EmoVid estabelece um novo referencial para a computação de vídeo afetiva. O nosso trabalho não só oferece perceções valiosas para a análise de emoções visuais em vídeos de estilo artístico, como também fornece métodos práticos para melhorar a expressão emocional na geração de vídeo.
Permitir que sistemas de IA agentivos adaptem suas abordagens de resolução de problemas com base em interações pós-treinamento continua sendo um desafio fundamental. Embora sistemas que atualizam e mantêm uma memória durante o tempo de inferência tenham sido propostos, os projetos existentes apenas direcionam o sistema modificando a entrada textual para um modelo de linguagem ou agente, o que significa que eles não podem alterar parâmetros de amostragem, remover ferramentas, modificar *prompts* de sistema ou alternar entre paradigmas agentivos e de fluxo de trabalho. Por outro lado, sistemas que se adaptam de forma mais flexível exigem otimização offline e permanecem estáticos uma vez implantados. Apresentamos o *Experience-Guided Reasoner* (EGuR), que gera estratégias personalizadas – procedimentos computacionais completos envolvendo chamadas de LLM, ferramentas, parâmetros de amostragem e lógica de controle – dinamicamente no tempo de inferência, com base na experiência acumulada. Alcançamos isso usando uma metaestratégia baseada em LLM – uma estratégia que produz estratégias – permitindo a adaptação de todos os componentes da estratégia (*prompts*, parâmetros de amostragem, configurações de ferramentas e lógica de controle). O EGuR opera por meio de dois componentes: um *Guia* gera múltiplas estratégias candidatas condicionadas ao problema atual e a uma memória estruturada de experiências passadas, enquanto um *Consolidador* integra o *feedback* da execução para melhorar a geração de estratégias futuras. Isso produz estratégias completas e prontas para execução, otimizadas para cada problema, que podem ser armazenadas em cache, recuperadas e executadas conforme necessário, sem desperdício de recursos. Em cinco *benchmarks* desafiadores (AIME 2025, 3-SAT e três tarefas do Big Bench Extra Hard), o EGuR alcança melhorias de precisão de até 14% em relação às linhas de base mais fortes, enquanto reduz os custos computacionais em até 111 vezes, com ambas as métricas melhorando à medida que o sistema ganha experiência.
A geração de ideias científicas está no cerne da descoberta científica e tem impulsionado o progresso humano — seja resolvendo problemas não solucionados ou propondo novas hipóteses para explicar fenômenos desconhecidos. Ao contrário do raciocínio científico padrão ou da geração criativa geral, a geração de ideias na ciência é uma tarefa de múltiplos objetivos e de natureza aberta, na qual a novidade de uma contribuição é tão essencial quanto sua solidez empírica. Os grandes modelos de linguagem (LLMs) emergiram recentemente como geradores promissores de ideias científicas, capazes de produzir resultados coerentes e factuais com intuição surpreendente e raciocínio aceitável, mas sua capacidade criativa permanece inconsistente e pouco compreendida. Esta revisão fornece uma síntese estruturada dos métodos para a ideação científica impulsionada por LLMs, examinando como diferentes abordagens equilibram criatividade com rigor científico. Categorizamos os métodos existentes em cinco famílias complementares: Aumento de conhecimento externo, Direcionamento distribucional baseado em *prompts*, Escalonamento no momento da inferência, Colaboração multiagente e Adaptação a nível de parâmetros. Para interpretar suas contribuições, empregamos dois quadros complementares: a taxonomia de Boden da criatividade Combinatória, Exploratória e Transformacional para caracterizar o nível de ideias que cada família espera gerar, e o quadro 4Ps de Rhodes — Pessoa, Processo, Pressão e Produto — para localizar o aspeto ou fonte de criatividade que cada método enfatiza. Ao alinhar os avanços metodológicos com os quadros de criatividade, esta revisão esclarece o estado da arte e delineia direções-chave para aplicações confiáveis, sistemáticas e transformadoras dos LLMs na descoberta científica.
Este artigo apresenta uma nova abordagem para a categorização de escalonadores de carga de trabalho modernos. Fornecemos descrições de três classes de escalonadores: Escalonadores de Processos de Sistemas Operacionais, Escalonadores de Tarefas de Sistemas de Cluster e Escalonadores de Big Data. Descrevemos a sua evolução desde as primeiras adoções até às implementações modernas, considerando tanto a utilização como as características dos algoritmos. Em suma, discutimos as diferenças entre todas as classes de escalonadores apresentadas e analisamos o seu desenvolvimento cronológico. Em conclusão, destacamos semelhanças no foco do desenho de estratégias de escalonamento, aplicáveis tanto a sistemas locais como distribuídos.
A crescente implantação de agentes de IA autónomos na web é dificultada por um desalinhamento fundamental: os agentes têm de inferir *affordances* a partir de interfaces de utilizador concebidas para humanos, o que leva a interações frágeis, ineficientes e inseguras. Para resolver este problema, introduzimos o VOIX, um *framework* nativo da web que permite aos *websites* expor capacidades confiáveis, auditáveis e que preservam a privacidade para agentes de IA através de elementos HTML simples e declarativos. O VOIX introduz as tags `<tool>` e `<context>`, permitindo aos programadores definir explicitamente as ações disponíveis e o estado relevante, criando assim um contrato claro e legível por máquina para o comportamento do agente. Esta abordagem transfere o controlo para o programador do *website*, preservando simultaneamente a privacidade do utilizador ao desligar as interações conversacionais do *website*. Avaliámos a praticidade, a facilidade de aprendizagem e a expressividade do *framework* num estudo de *hackathon* de três dias com 16 programadores. Os resultados demonstram que os participantes, independentemente da experiência anterior, foram capazes de construir rapidamente aplicações web diversas e funcionais, capacitadas para agentes. Em última análise, este trabalho fornece um mecanismo fundamental para concretizar a Web Agência, permitindo um futuro de colaboração humana-IA perfeita e segura na web.
A perceção cooperativa veículo-a-veículo (V2V) possui um grande potencial para melhorar o desempenho da condução autónoma, superando as limitações de perceção em cenários de tráfego adversos complexos (CATS). Entretanto, os dados servem como infraestrutura fundamental para a IA moderna de condução autónoma. No entanto, devido a requisitos rigorosos de recolha de dados, os conjuntos de dados existentes concentram-se principalmente em cenários de tráfego comuns, limitando os benefícios da perceção cooperativa. Para enfrentar este desafio, apresentamos o CATS-V2V, o primeiro conjunto de dados do mundo real do seu género para perceção cooperativa V2V sob cenários de tráfego adversos complexos. O conjunto de dados foi recolhido por dois veículos sincronizados temporalmente em hardware, abrangendo 10 condições meteorológicas e de iluminação em 10 localizações diversas. O conjunto de 100 clipes inclui 60 mil frames de nuvens de pontos LiDAR a 10 Hz e 1,26 milhões de imagens de câmara multi-view a 30 Hz, juntamente com 750 mil registos anónimos mas de alta precisão de GNSS e IMU fixados por RTK. Correspondentemente, fornecemos anotações de caixas delimitadoras 3D temporalmente consistentes para objetos, bem como cenas estáticas para construir uma representação 4D em vista de cima (BEV). Com base nisto, propomos um método de alinhamento temporal baseado em alvos, garantindo que todos os objetos estejam precisamente alinhados em todas as modalidades de sensores. Esperamos que o CATS-V2V, o conjunto de dados da sua categoria de maior escala, mais abrangente e de mais alta qualidade até à data, beneficie a comunidade de condução autónoma em tarefas relacionadas.
Este artigo apresenta uma estratégia para alocar serviços em um sistema de nuvem sem sobrecarregar os nós e mantendo a estabilidade do sistema com custo mínimo. Especificamos um modelo abstrato de utilização de recursos de nuvem, incluindo múltiplos tipos de recursos, bem como considerações sobre os custos de migração de serviços. Um protótipo de balanceador de carga meta-heurístico é demonstrado, e os resultados experimentais são apresentados e discutidos. Também propomos um novo algoritmo genético, no qual a população é inicializada com os resultados de outros algoritmos meta-heurísticos.