Lord Kelvin disse-o da melhor forma: “Quando você pode medir sobre o que está falando e expressá-lo em números, você sabe algo sobre isso; mas quando você não pode medir, quando não pode expressá-lo em números, seu conhecimento é de um tipo escasso e insatisfatório.” Parabéns a @BrendanFoody e @mercor_ai por entregar isso para modelos de AI
A IA tem o seu doutoramento e agora está no mercado de trabalho.
Apresentamos o Índice de Produtividade da IA (APEX), um benchmark que mede quão bem automatizámos as indústrias mais valiosas do mundo.
A maioria dos benchmarks estuda capacidades abstratas. O APEX avalia o desempenho dos modelos em entregas reais nas áreas de direito, finanças, consultoria e medicina.
Os modelos mais capazes de realizar trabalho hoje, de acordo com o APEX:
🥇 GPT 5
🥈 Grok 4
🥉 Gemini 2.5 Flash
Outras descobertas:
- O GPT 5 demonstra o melhor desempenho em todos os 4 domínios
- Alguns modelos mais baratos superam modelos mais caros do mesmo fornecedor (por exemplo, Gemini 2.5 Flash vs. Gemini 2.5 Pro)
- O melhor modelo de código aberto, Qwen (7º), apresenta um desempenho apenas 2% abaixo do Grok 4 no geral
10,16 mil
42
O conteúdo apresentado nesta página é fornecido por terceiros. Salvo indicação em contrário, a OKX não é o autor dos artigos citados e não reivindica quaisquer direitos de autor nos materiais. O conteúdo é fornecido apenas para fins informativos e não representa a opinião da OKX. Não se destina a ser um endosso de qualquer tipo e não deve ser considerado conselho de investimento ou uma solicitação para comprar ou vender ativos digitais. Na medida em que a IA generativa é utilizada para fornecer resumos ou outras informações, esse mesmo conteúdo gerado por IA pode ser impreciso ou inconsistente. Leia o artigo associado para obter mais detalhes e informações. A OKX não é responsável pelo conteúdo apresentado nos sites de terceiros. As detenções de ativos digitais, incluindo criptomoedas estáveis e NFTs, envolvem um nível de risco elevado e podem sofrer grandes flutuações. Deve considerar cuidadosamente se o trading ou a detenção de ativos digitais é adequado para si à luz da sua condição financeira.