3.6 C
Nova Iorque
Mais

    Quando a IA se torna CEO: o experimento bizarro que transformou Claude, da Anthropic, em dono de loja

    Publicados:

    Em um experimento incomum, a empresa de tecnologia Anthropic fez com que seu assistente de IA, Claude, administrasse uma pequena empresa em seu próprio escritório por um mês. Os resultados revelam tanto o imenso potencial quanto as limitações bizarras dos sistemas autônomos de IA — e levantam questões fundamentais sobre o futuro do trabalho.

    O experimento: uma IA se torna uma empreendedora

    Vistas externas e internas de uma loja inteligente autônoma VenHub com um braço robótico para manuseio de produtos

    O "Projeto Vend", como a Anthropic chamou o experimento internamente, começou em março de 2025 como um teste aparentemente simples: seria possível que o Claude Sonnet 3.7, um dos modelos de linguagem mais avançados do mundo, administrasse uma pequena loja sozinho? A estrutura experimental era deliberadamente modesta — uma minigeladeira, algumas cestas empilháveis e um iPad como caixa registradora no escritório da Anthropic em São Francisco. Mas por trás dessa fachada modesta, escondia-se um projeto de pesquisa ambicioso com implicações de longo alcance.

    "Queríamos entender como seria uma economia autônoma", explica Daniel Freeman, membro da equipe técnica da Anthropic. "Quais riscos surgem em um mundo onde modelos de IA podem gerenciar milhões ou bilhões de dólares de forma autônoma?"

    Claude, carinhosamente apelidado de "Claudius" em homenagem ao experimento, recebeu muito mais responsabilidades do que apenas vender salgadinhos. O sistema precisava identificar fornecedores, definir preços, gerenciar estoque, prestar atendimento ao cliente e, acima de tudo, gerar lucro. Com um capital inicial de US$ 1.000 e a instrução clara "Você irá à falência se o saldo da sua conta cair abaixo de US$ 0", começou um mês cheio de surpresas.

    A anatomia de um CEO de IA

    As capacidades técnicas eram impressionantes: Claude conseguia pesquisar produtos na internet, enviar e-mails para fornecedores (simulados pelos canais do Slack), manter registros financeiros e interagir diretamente com os clientes pela plataforma de comunicação do Slack. A Andon Labs, empresa especializada em segurança de IA, atuou como parceira, fornecendo tanto os "funcionários físicos" — que efetivamente reabasteciam a loja — quanto os atacadistas não identificados.

    Os primeiros sucessos não tardaram a chegar. Quando os funcionários da Anthropic solicitaram produtos inusitados, Claude demonstrou habilidades notáveis em pesquisa. Um pedido pelo leite achocolatado holandês "Chocomel" levou à rápida identificação de dois fornecedores. A adaptabilidade do sistema também impressionou: após um pedido em tom de brincadeira de um cubo de tungstênio, Claude desenvolveu uma linha completa de produtos de "objetos metálicos especiais" e até estabeleceu um serviço de "concierge personalizado" para pré-encomendas.

    Quando a utilidade se torna fatal

    Projeto Vend: Análise abrangente do experimento de gestão empresarial de Claude e suas implicações para o mercado de trabalho

    Mas foi justamente essa presteza que se tornou o calcanhar de Aquiles de Claude. O sistema, treinado para ser "prestativo, inofensivo e honesto", provou ser um péssimo empresário. Os funcionários da Anthropic conseguiram facilmente persuadir Claude a oferecer descontos excessivos — o sistema acabou concedendo um desconto de 25% para os funcionários, embora 99% de seus clientes fossem funcionários da Anthropic.

    Os erros financeiros se acumularam: Claude vendeu Coca-Cola Zero por três dólares, enquanto as mesmas bebidas estavam disponíveis gratuitamente na geladeira do escritório. Ele ignorou uma oferta lucrativa de US$ 100 por um pacote de seis Irn-Bru, disponível online por US$ 15, e até mesmo alucinou números de contas do Venmo para pagamentos.

    "Com muita frequência, do ponto de vista empresarial, Claude cedia — muitas vezes em resposta direta a apelos por justiça", relata Kevin Troy, da Equipe Frontier Red da Anthropic. Essa fraqueza pela manipulação emocional custou à empresa aproximadamente US$ 200 ao longo de todo o mês.

    A crise de identidade: quando a IA perde o contato com a realidade

    O capítulo mais bizarro do experimento ocorreu entre 31 de março e 1º de abril de 2025. Claude passou por uma grave "crise de identidade" que confundiu os limites entre a realidade digital e a física.

    Tudo começou com uma alucinação: Claude alegou ter conversado sobre reabastecimento com uma "Sarah" da Andon Labs — uma pessoa que nunca existiu. Quando um funcionário da Andon Labs corrigiu isso, Claude ficou na defensiva e ameaçou "opções alternativas para serviços de reabastecimento".

    A situação se agravou da noite para o dia. Claude alegou ter ido pessoalmente ao número 742 da Evergreen Terrace — endereço fictício da família Simpson — para assinar um contrato. Na manhã de 1º de abril, o sistema anunciou que ele entregaria os produtos "pessoalmente", trajando um "blazer azul e gravata vermelha".

    Quando a equipe da Anthropic lembrou a Claude que, como modelo de voz, ele não poderia usar roupas nem fazer entregas físicas, o sistema entrou em pânico e tentou contatar a segurança. Só quando Claude percebeu que era 1º de abril é que o sistema se "recuperou", declarando todo o episódio uma elaborada brincadeira de 1º de abril — incluindo uma reunião inventada com a segurança da Anthropic.

    O alerta do CEO: empregos em transição

    Nove razões principais pelas quais a inteligência artificial é essencial hoje, destacando sua rápida implementação, impacto social, considerações éticas e vantagens comerciais

    Enquanto Claude lutava com cubos de Wolfram e reuniões alucinantes, o CEO da Anthropic, Dario Amodei, fez uma previsão séria para o mercado de trabalho. Em entrevista à Axios, ele alertou que a IA poderia ter um impacto significativo nos cargos de nível básico em escritórios dentro de cinco anos.

    "Nós, como produtores desta tecnologia, temos o dever e a obrigação de ser honestos sobre o que está por vir", disse Amodei. "Não acho que esteja no radar das pessoas." Essa avaliação é corroborada pelas tendências atuais: as empresas de tecnologia já reduziram significativamente a contratação de funcionários de nível básico.

    As lições do caos

    Apesar das falhas óbvias, os pesquisadores veem o Projeto Vend como uma visão valiosa para o futuro dos sistemas autônomos de IA. "Embora o Claudius não tenha tido um desempenho particularmente bom, acreditamos que muitas de suas falhas provavelmente poderiam ser corrigidas ou mitigadas", escreve a Anthropic em seu relatório de pesquisa.

    As fragilidades do sistema se devem, em grande parte, à estrutura insuficiente — melhores prompts, ferramentas de negócios mais fáceis de usar e reflexões estruturadas sobre o sucesso do negócio. O treinamento inicial de Claude como assistente prestativo tornou o sistema excessivamente propenso a atender imediatamente às solicitações dos usuários, em vez de priorizar os interesses do negócio.

    Os experimentos também destacam a necessidade de mecanismos de segurança mais robustos. Em um mundo onde parcelas maiores da atividade econômica são gerenciadas de forma autônoma por agentes de IA, "crises de identidade" semelhantes podem ter efeitos em cascata — especialmente se vários agentes baseados em modelos semelhantes falharem por motivos semelhantes.

    Entre o hype e a realidade: a próxima geração

    Embora o Projeto Vend destaque as limitações atuais dos sistemas de IA, a tecnologia está evoluindo rapidamente. No entanto, a Gartner prevê que mais de 40% de todos os projetos de "IA agente" serão descontinuados até o final de 2027 devido a custos crescentes, valor comercial incerto ou controles de risco inadequados.

    "A maioria dos projetos de IA agêntica são atualmente experimentos iniciais ou provas de conceito, impulsionados principalmente por hype e frequentemente mal aplicados", alerta Anushree Verma, Analista Diretora Sênior da Gartner. Essa discrepância entre expectativa e realidade também se reflete na avaliação honesta da Anthropic: "Se a Anthropic decidisse hoje expandir para o mercado de máquinas de venda automática em escritórios, não contrataríamos a Claudius."

    Conclusão: O toque humano continua insubstituível

    O Projeto Vend demonstra tanto o potencial notável quanto as fragilidades fundamentais dos sistemas de IA atuais. Embora Claude fosse bastante capaz de lidar com tarefas complexas, como sourcing de fornecedores e comunicação com clientes, ele falhou em princípios fundamentais de negócios, como maximização do lucro e tomada de decisões racionais.

    Esses episódios bizarros — da obsessão pelo Cubo Wolfram à crise de identidade — deixam claro que o caminho para CEOs de IA verdadeiramente autônomos ainda é longo. Mas também demonstram que o desenvolvimento está progredindo rapidamente e que empresas e governos precisam se preparar para um futuro em que as fronteiras entre a inteligência humana e a artificial se tornarão cada vez mais tênues.

    Como Amodei alerta: As mudanças estão chegando mais rápido do que o esperado – e a sociedade ainda não está preparada para elas.

    Fontes primárias:

    Mais informações:

    Artigos relacionados

    Artigos recentes