Claude se destaca como melhor modelo para coding e computer use
Anthropic revoluciona com IA que pode usar computadores como humanos
Uma nova fronteira em IA: modelos que usam computadores
O Claude pode agora usar computadores. Quando executado através da configuração de software apropriada, ele pode seguir comandos do usuário para mover um cursor pela tela, clicar em locais relevantes e inserir informações via teclado virtual — emulando a forma como pessoas interagem com seus próprios computadores.
Esta habilidade representa um avanço significativo no progresso da IA. Uma quantidade enorme do trabalho moderno acontece via computadores. Permitir que IAs interajam diretamente com software da mesma forma que pessoas fazem desbloqueia uma gama enorme de aplicações que simplesmente não são possíveis para a geração atual de assistentes de IA.
Como funciona o Computer Use
Quando um desenvolvedor atribui ao Claude a tarefa de usar um software e dá o acesso necessário, o Claude olha para screenshots do que está visível ao usuário, então conta quantos pixels verticalmente ou horizontalmente precisa mover o cursor para clicar no lugar correto.
O processo técnico
O modelo foi treinado para:
- Interpretar screenshots — Entender o que está acontecendo na tela
- Contar pixels com precisão — Crítico para dar comandos de mouse precisos
- Raciocinar sobre ações — Decidir como e quando executar operações específicas
- Auto-corrigir — Tentar novamente quando encontra obstáculos
"""Treinar o Claude para contar pixels com precisão foi crítico. Sem essa habilidade, o modelo tem dificuldade em dar comandos de mouse — similar a como modelos frequentemente lutam com perguntas aparentemente simples como 'quantos As na palavra banana?'"
Generalização surpreendente
Os pesquisadores ficaram surpresos com a rapidez com que o Claude generalizou a partir do treinamento em apenas alguns softwares simples, como uma calculadora e um editor de texto. Em combinação com outras habilidades do Claude, esse treinamento concedeu a capacidade notável de transformar um prompt escrito em uma sequência de passos lógicos e então tomar ações no computador.
O modelo até mesmo se auto-corrige e tenta novamente quando encontra obstáculos — um comportamento emergente que não foi explicitamente programado.
Performance em benchmarks de coding
O Claude estabeleceu novos padrões em benchmarks de engenharia de software:
SWE-bench Verified
Este benchmark testa a capacidade de resolver issues reais do GitHub da forma que um engenheiro humano faria:
- Claude alcançou pontuações recordes, superando outros modelos líderes
- O benchmark avalia compreensão de codebase, raciocínio lógico e capacidade de lidar com edge cases complexos
- Demonstra capacidade superior em projetos multi-arquivo e refatoração
OSWorld
Para computer use, o Claude obtém 14.9% no OSWorld — longe do nível humano (70-75%), mas muito superior aos 7.7% do próximo melhor modelo na mesma categoria.
Aplicações práticas no mundo real
Automação de tarefas repetitivas
- Preencher formulários em múltiplos sistemas
- Transferir dados entre aplicações
- Executar sequências de ações em software legado
Desenvolvimento de software
- Navegar por codebases complexas
- Executar testes e interpretar resultados
- Documentar código automaticamente
- Fazer code review com contexto visual
Operações empresariais
- Processar documentos em sistemas que não têm API
- Automatizar workflows em software proprietário
- Integrar sistemas legados sem desenvolvimento customizado
Janela de contexto massiva
Com uma janela de contexto de 200.000 tokens (equivalente a aproximadamente 150.000 palavras ou 500 páginas), o Claude pode processar codebases inteiras, documentação abrangente e relatórios de negócios extensos em uma única conversa.
Isso significa:
- Análise de projetos completos sem fragmentação
- Compreensão de dependências entre arquivos
- Manutenção de contexto em conversas longas
Considerações de segurança
Cada avanço em IA traz novos desafios de segurança. O computer use é principalmente uma forma de reduzir a barreira para sistemas de IA aplicarem suas habilidades cognitivas existentes, então as principais preocupações focam em danos presentes.
Prompt injection
Uma preocupação identificada é "prompt injection" — um tipo de ciberataque onde instruções maliciosas são alimentadas a um modelo de IA, fazendo-o sobrescrever suas direções anteriores ou executar ações não intencionais.
Como o Claude pode interpretar screenshots de computadores conectados à internet, é possível que seja exposto a conteúdo que inclui ataques de prompt injection.
Medidas de proteção
- Classificadores para detectar e mitigar abusos
- Monitoramento de atividades sensíveis
- Sistemas para direcionar o Claude para longe de atividades como gerar e postar conteúdo em redes sociais ou interagir com sites governamentais
Limitações atuais
Mesmo sendo estado da arte, o computer use do Claude ainda é:
- Lento — Comparado com ações humanas
- Propenso a erros — Especialmente em tarefas complexas
- Limitado em ações — Não consegue fazer drag, zoom e outras ações comuns
A natureza de "flipbook" da visão do Claude — tirando screenshots e juntando-os, em vez de observar um stream de vídeo mais granular — significa que pode perder ações ou notificações de curta duração.
Erros divertidos durante desenvolvimento
Durante gravações de demonstração, os pesquisadores encontraram erros interessantes:
- Em um caso, o Claude acidentalmente clicou para parar uma gravação de tela longa, causando perda de toda a filmagem
- Em outro, o Claude subitamente fez uma pausa na demo de coding e começou a navegar por fotos do Parque Nacional de Yellowstone
Uma abordagem diferente para desenvolvimento de IA
Computer use representa uma abordagem completamente diferente. Até agora, desenvolvedores de LLM faziam ferramentas se encaixarem no modelo, produzindo ambientes customizados onde IAs usam ferramentas especialmente projetadas.
Agora, podemos fazer o modelo se encaixar nas ferramentas — o Claude pode se encaixar nos ambientes de computador que todos usamos diariamente. O objetivo é que o Claude pegue softwares pré-existentes e simplesmente os use como uma pessoa faria.
O futuro do computer use
Espera-se que o computer use melhore rapidamente para se tornar:
- Mais rápido
- Mais confiável
- Mais útil para tarefas que usuários querem completar
- Mais fácil de implementar para quem tem menos experiência em desenvolvimento
A cada estágio, pesquisadores trabalham junto com equipes de segurança para garantir que as novas capacidades do Claude sejam acompanhadas pelas medidas de segurança apropriadas.
Conclusão
O Claude representa uma mudança de paradigma: de modelos que precisam de ferramentas customizadas para modelos que podem usar qualquer software existente. Para equipes de desenvolvimento e empresas que buscam integrar IA em seus workflows, isso significa possibilidades que antes eram impensáveis — automação de qualquer tarefa que um humano pode fazer em um computador.