Em 2020, o Borussia Dortmund contratou um jogador inglês desconhecido da segunda divisão inglesa. O preço: 22 milhoes de euros. O olheiro tradicional? Nunca o havia ouvido falar. A imprensa perguntava: por que gastar em alguém que ninguém conhecia?
Três anos depois, esse jogador é considerado um dos melhores em sua posição na Europa. Seu nome? Jude Bellingham. A história anterior é simplificada, mas a verdade é que Jude foi descoberto por análise de dados antes de ser descoberto por olheiros tradicionais.
Em 2024, um clube português contratou um lateral direito de liga inferior. Preço: €800 mil. Ninguém o conhecia globalmente. Dois anos depois, foi vendido para Premier League por €20 milhões. Como um dirigente viu potencial onde olheiros tradicionais não viram? Big Data.
A questão que persiste é: Como exatamente algoritmos conseguem ver jogadores que humanos não conseguem? E mais importante: Qual é o futuro do scouting? Olheiros extintos ou dados aumentando intuição humana?
O problema que Big Data soluciona: A limitação sensorial do olheiro humano
Um olheiro tradicional é excelente em uma coisa: observar um jogador ao vivo e fazer julgamento qualitativo. Ele vê movimento, antecipação, inteligência tática, carisma. Coisas que câmera não captura bem.
Mas um olheiro tem limitações estruturais:
Tempo: Um olheiro consegue cobrir ~50-100 partidas por ano. Existem ~300 mil jogadores profissionais globalmente. Taxa de cobertura: 0.016%. Ele vê 0.016% dos jogadores profissionais.
Cognição: Um olheiro lembra-se de ~200 nomes de jogadores com detalhe. Sua memória é limitada. Jogador que viu uma vez há 3 anos é frequentemente esquecido.
Viés: Olheiro tem preferências estéticas. Gosta mais de jogador que “joga bonito” mesmo que menos eficiente. Gosta menos de jogador de corpo diferente mesmo se mais eficiente.
Ineficiência de Mercado: Olheiro compra jogador baseado em “feeling”. Sente que jogador vai ser bom. 70% das contratações por feeling falham. Apenas 30% funcionam.
Por contraste, Big Data promete:
Cobertura Total: Analisar todos os 300 mil jogadores profissionais simultaneamente.
Memória Perfeita: Armazenar todas as ações de todos os jogadores, permanentemente recuperáveis.
Sem Viés Estético: Apenas eficiência importa, não aparência ou estilo.
Previsão Probabilística: Em vez de “feeling”, probabilidade matemática de sucesso futuro.
Insight Crítico: Big Data não substitui olheiro porque é mais inteligente. Substitui porque consegue estar em 300 mil lugares simultaneamente enquanto olheiro consegue estar em 50. É questão de escala, não inteligência. Um olheiro é excelente. Cem mil olheiros (Big Data) é impossível humanamente.
A economia do Scouting tradicional vs dados
Economicamente, scouting tradicional é caro e ineficiente:
Custo anual de 1 olheiro: ~€150-250 mil (salário + viagens)
Clube precisa de ~30 olheiros para cobrir mercado minimamente: ~€6 milhões/ano
Taxa de acerto: ~25-30% (3 em 10 contratações funcionam)
ROI (Retorno sobre Investimento): Para cada €10M gastos em scouting, retorna €20-30M em transferências bem-sucedidas = 2-3x ROI
Por contraste, scouting com Big Data:
Custo anual de infraestrutura de dados: ~€5-10 milhões (servidores, licenses, cientistas de dados)
Cobertura do mercado: 100% simultânea
Taxa de acerto: ~45-55% (4-5 em 10 contratações funcionam)
ROI: Para cada €10M gastos em dados, retorna €40-50M em transferências bem-sucedidas = 4-5x ROI
Diferença: ROI de Big Data é ~2x maior que scouting tradicional. Clube que investe em dados consegue contratar melhores jogadores pelo mesmo orçamento.
A arquitetura técnica: Como dados são coletados, processados e transformados em insights
Camada 1: Coleta de dados brutos
Todo jogo de futebol gera dados através de múltiplas fontes:
Rastreamento de Posição (Tracking Data): Câmeras especializadas rastreiam posição de cada jogador a 25Hz (25 vezes por segundo). Cada posição é registrada com (x, y, tempo). Um jogo de 90 minutos gera ~3 milhões de pontos de posição por jogador.
Eventos de Ação (Event Data): Analistas humanos marcam cada ação: passe, chute, drible, falta, etc. Cada ação tem tipo, locação inicial, locação final, jogador, timestamp.
Sensor de Bola (Ball Tracking): Câmeras rastreiam bola com precisão submilimétrica. Velocidade de passe, rotação da bola, trajetória — tudo é registrado.
Metadados: Clima, horário, estádio, fase da competição, resultado, etc.
Resultado: Um jogo de futebol gera ~10-20 GB de dados brutos. Uma temporada de 380 partidas gera ~5-8 TB de dados.
Camada 2: Processamento e normalização
Dados brutos são inúteis sem processamento. Acontece:
Normalização de qualidade: Dados de câmera de uma liga são diferentes de outra. Sistema A registra a cada 0.04s, sistema B a cada 0.1s. Dados precisam ser normalizados para comparabilidade.
Correção de erros: Câmeras de tracking às vezes perdem jogadores (oclusão — jogador atrás de outro). Algoritmo de interpolação “prevê” posição do jogador perdido.
Validação estatística: Se passa de um jogador tem velocidade de 50 km/h e anterior era 5 km/h, é erro de dados. Algoritmo remove outliers.
Agregação: Dados de 90 minutos são agregados em períodos (5 min, 10 min, primeiro tempo, segundo tempo).
Camada 3: Cálculo de métricas
Dados processados são transformados em métricas humanamente inteligíveis:
Métrica
O que Mede
Fórmula Conceitual
xG (Expected Goals)
Qualidade de chance de chute
Σ(probabilidade de gol | posição, ângulo, bloqueios)
xA (Expected Assists)
Qualidade de passe criativo
Σ(probabilidade de gol | passe criado)
PPDA (Passes Per Defensive Action)
Intensidade defensiva
Passes adversários / ações defensivas do time
Pressão Bem-Sucedida %
% de pressões que recuperam bola
Recuperações diretas / total de pressões
Progressão Defensiva %
% passes defensivos que avançam 10+ metros
Passes progressivos / passes defensivos
Box Entry Rate
Frequência de dribles que entram em área
Dribles para área / total dribles
Cada métrica responde pergunta específica: “Como é esse jogador nessa dimensão de performance?”
Camada 4: Machine Learning e previsão
Aqui é onde Big Data se torna verdadeiramente “inteligente”. Modelos de aprendizado de máquina usam histórico de dados para prever futuro.
Exemplo de modelo preditivo:
Input (jogador em liga menor): – xG: 0.35 por 90 – xA: 0.08 por 90 – Pressão Bem-Sucedida: 62% – PPDA: 5.2 – Idade: 21 – Ligas anteriores: 2 (Série B, Portugal) – Salário atual: €150k/ano – Contrato: 2 anos
Processamento: Modelo random forest com 500 árvores de decisão treinado em 10 mil transferências históricas
Output: – Probabilidade de sucesso em liga maior: 73% – xG esperado em liga maior (90 min): 0.28 – Valor de mercado em 3 anos: €8-12M – Confiança da previsão: 85%
Como máquina “vê” diferente de humano: Um olheiro vê jogador marcar 1 gol em 10 chutes e pensa “jogador tímido, não chuta quando deveria”. Machine learning vê 0.35 xG com 1 gol e pensa “sobrenquanto — jogador está marcando melhor que deveria estatisticamente, é bom finalizador”. São intuições diferentes baseadas em perspectivas diferentes.
Os métodos de descoberta: Como algoritmos encontram joias brutas?
Método 1: Detecção de anomalias (Outliers)
A ideia: encontrar jogadores que são “anormalmente bons” para seu contexto.
Exemplo:
Liga X tem xG médio de 0.15 por 90 para atacantes
Jogador Y tem xG de 0.38 por 90
Y está 2.5 desvios padrão acima da média — é outlier
Pergunta: Por que Y está tão acima da média? Tá sortudo? Ou é genuinamente bom e apenas em liga pequena?
Algoritmo de detecção de anomalias marca Y para investigação humana. Olheiro então assiste vídeos de Y, confirma que é verdadeiramente bom, não sorte.
Resultado: Clube contrata Y por €2M. Em 2 anos, Y é vendido por €15M. ROI: 7.5x.
Método 2: Comparação de perfil (profile matching)
A ideia: encontrar jogadores com perfil similar a jogador que funcionou bem historicamente.
Exemplo:
Clube teve sucesso com atacante A (2010-2015): xG 0.42, xA 0.12, pressão 58%
Algoritmo busca todos os jogadores do mundo com perfil similar
Algoritmo busca laterais globalmente com esse padrão em ligas menores
Encontra lateral Y em liga portuguesa com exatamente esse padrão
Clube contrata Y por preço baixo, sabe que laterais com esse padrão funcionam
Método 4: Previsão de trajetória (Trajectory Prediction)
A ideia: treinar modelo para prever trajetória de desenvolvimento de um jogador.
Exemplo:
Modelo analisa 1000 playmakers que começaram em liga III
Para cada um, registra: performance em ano 1, ano 2, ano 3, … até atingir pico
Aprende padrão típico: “playmaker em liga III começa em 0.05 xA, sobe 0.10 em ano 2, 0.15 em ano 3, 0.18 em ano 4, depois estabiliza”
Vê novo jogador Y com 0.08 xA em ano 1 de liga III
Modelo prevê: Y vai atingir 0.20+ xA em 3-4 anos
Clube compra Y por €1.5M, planeja vendê-lo por €15M em 4 anos
Como algoritmo funciona internamente:
Dados históricos de mil transferências bem-sucedidas e mil malsucedidas alimentam rede neural convolucional que aprende padrões de sucesso. A rede tem múltiplas camadas:
Camada 1: Entrada bruta (xG, xA, idade, liga, etc.) Camada 2: Detecção de padrões simples (é atacante? tem idade certa?) Camada 3: Detecção de padrões complexos (relação entre xG e xA dado contexto tático) Camada 4: Predição final (probabilidade de sucesso)
Saída final é número entre 0-100: probabilidade de sucesso em liga alvo.
Casos reais: Onde Big Data funcionou (e onde falhou)?
Sucesso: O Modelo de Liverpool (2015-2020)
Liverpool, sob Jürgen Klopp com suporte de análise de dados, transformou scouting através de Big Data:
Mohamed Salah: Contratado em 2017 por €42M. Dados mostravam xG anormalmente alto para ligas anteriores, modelo previa replicaria em Premier League. Resultado: Melhor jogador da liga.
Sadio Mané: Contratado em 2016 por €36M. Algoritmo identificou PPDA extremamente alto (muitas recuperações), modelo previa sucesso defensivo. Resultado: Um dos laterais mais eficientes de década.
Andrew Robertson: Contratado em 2017 por €8M (barato!) de liga escocesa. Dados mostravam progressão de bola de elite, modelo previa transferência bem-sucedida. Resultado: Jogador em top 5 lateral-esquerdo da Europa.
Liverpool através de dados descobriu talentos em preços 50-70% abaixo do mercado porque detectou padrões que olheiros não viam.
Sucesso: O modelo de Brighton (2018-2024)
Brighton, com orçamento limitado, usou Big Data para ser consistente descobridor de talentos:
Alexis Mac Allister: Comprado por €10M, vendido por €35M — 3.5x ROI
Moisés Caicedo: Comprado por €5M, vendido por €40M — 8x ROI
Julio Enciso: Comprado por €5M, vendido por €26M — 5.2x ROI
Padrão: Brighton usa dados para encontrar sobre-pensos (undervalued players) em ligas menores, desenvolve-os, vende por lucro. Modelo é baseado em algoritmo de detecção de anomalias + trajetória prevista.
Falha: O desastre de Manchester United (2013-2019)
United tentou usar Big Data sem entender corretamente. Contratou jogadores como:
Fred: €60M. Dados mostravam bons números em Ucrânia, modelo previa sucesso. Realidade: Nunca se adaptou culturalmente, performance foi abaixo.
Eric Bailly: €30M. Dados excelentes, modelo previa sucesso. Realidade: Lesões crônicas não foram capturadas em dados (dados não incluem histórico médico adequadamente).
Lição: Dados predizem performance tática, não adaptação cultural ou saúde. Modelo que ignora essas variáveis falha.
Falha: O viés do “modelo vencedor”
Um erro comum: treinar algoritmo em jogadores que funcionaram bem, depois procurar clones exatos.
Problema: Clones podem fracassar se contexto tático mudar. Se clube contratou atacante A que foi bom em sistema 4-3-3, e depois muda para 5-2-3, clone de A pode não funcionar em novo sistema.
Resultado: Clube investe em “clone” que fracassa, perde dinheiro.
Limitação Crítica de Machine Learning: Modelos aprendem padrões do passado. Se futura contexto é radicalmente diferente do passado, modelo falha. Clube que usa dados deve atualizar modelo continuamente conforme contexto tático muda. Clube que usa modelo estático vai falhar quando tática evolui.
As limitações técnicas que ninguém fala: Por que dados não são milagroso?
Limitação 1: Dados faltam contexto psicológico
Algoritmo vê: Jogador X marcou 10 gols em 2000 minutos em liga menor, xG era 8, portanto sobre-realizou 25%.
Contexto que algoritmo não vê: Jogador X foi ídolo em seu time, teve apoio psicológico do torcedor, viveu em casa com família, estava em pico psicológico.
Em novo time: Jogador é desconhecido, torcedor não apoia, vive sozinho, está inseguro psicologicamente. Performance cai 30%.
Dados não capturam psicologia. Algoritmo prediz alto, realidade é baixa.
Limitação 2: O problema da colinearidade de dados
Suponha xG e xA correlacionam com sucesso em 90% dos casos históricos. Algoritmo aprende: “Se xG alto E xA alto, jogador vai ser bom.”
Problema: xG e xA podem estar altos porque jogador estava em time dominante (que criava muitas chances para todos). Quando jogador muda para time fraco, xG e xA caem — não porque jogador é ruim, mas porque time é ruim.
Algoritmo não consegue diferenciar: “Jogador é bom em time bom” vs “Jogador é bom individualmente”.
Limitação 3: O problema da distribuição de dados (distribution shift)
Modelo treinado em dados de 2010-2020 aprendeu padrões daquela era. Se futebol evolui (táticas mudam, athleticism aumenta, defesa melhora), padrões de 2010 não mais se aplicam em 2025.
Resultado: Modelo “envelhece”. Precisão que era 80% em 2020 cai para 60% em 2025.
Clube que não re-treina modelo regularmente vê previsões degradarem com tempo.
Limitação 4: O dilema do jogador único
Cada jogador é indivíduo com características únicas. Algoritmo é baseado em estatísticas de população. O que funciona para 95% da população pode não funcionar para os 5% únicos.
Exemplo: Jogador Y tem características tão únicas que não há comparável no histórico. Modelo nunca foi treinado em alguém assim. Previsão é incerta.
Resultado: Para casos únicos, Big Data falha. Precisão do modelo cai drasticamente.
Hierarquia de confiabilidade:
1. Jogador em contexto similar a histórico (95% de confiança) 2. Jogador em contexto parcialmente similar (75% de confiança) 3. Jogador em contexto diferente (45% de confiança) 4. Jogador com características únicas (25% de confiança) 5. Jogador em mudança radical de contexto (10% de confiança)
Big Data é excelente nos cenários 1-2. É inadequado nos cenários 4-5. Cenários 4-5 requerem intuição humana.
O futuro: Scouting hibrido (humano + máquina)
Modelo ganha-ganha: Como olheiro aumentado por dados funciona?
Os melhores clubes modernos não escolhem entre olheiro ou dados — combinam os dois:
Algoritmo identifica 100 candidatos que têm potencial estatístico alto (anomalias, matching, etc.)
Algoritmo agrupa por cluster — divide em 10 grupos de 10 jogadores com características similares
Olheiro assiste 10 vídeos — um de cada cluster, para validar que algoritmo não está enganado
Se olheiro confirma potencial, algoritmo desce para segundo nível de análise
Analista de vídeo estuda 30-40 horas de footage do melhor candidato de cada cluster
Entrevista com psicólogo — avalia mentalidade, adaptabilidade, potencial de crescimento psicológico
Decisão final combina: dados (80%) + intuição humana (20%)
Resultado: Clube combina força de dados (cobertura, sem viés estético, previsão probabilística) com força de humano (contexto psicológico, intuição, adaptabilidade).
Inversão de poder: De olheiro como tomador de decisão para tomador de confirmação
Mudança fundamental de roles:
Antes: Olheiro recomenda, diretor aprova/rejeita baseado em reputação do olheiro.
Depois: Algoritmo recomenda, olheiro confirma/rejeita baseado em vídeo e análise.
Isso muda status do olheiro de “expert que decide” para “especialista que valida”. Alguns olheiros não gostam dessa perda de poder. Mas estruturalmente é mais eficiente.
O papel do “caçador verdadeiro”
Algoritmos conseguem encontrar jogadores que estão “acima da média em liga pequena”. Mas os verdadeiros descobridores são aqueles que encontram jogadores que ainda estão “abaixo da visibilidade”.
Exemplos:
Jogador em terceira divisão que tem dados ruins (porque terceira divisão tem cobertura de dados fraca), mas tem potencial genuíno
Jogador que foi rejeitado por todos os clubes grandes no passado, mas evoluiu mentalmente
Jogador com lesão passada que foi “morto” no mercado, mas se recuperou
Esses casos requerem caçador humano que conhece histórias pessoais, que ouve rumores, que investe tempo em jugadores que ninguém mais vê.
Big Data não substitui caçador verdadeiro — apenas o amplifica, filtrando os candidatos mais promissores de uma população massiva.
A questão ética: Como Big Data concentra riqueza em clubes ricos
O paradoxo do nivelador que desiguala
Big Data foi prometido como “democratizador” — pequenos clubes poderiam competir com gigantes através de análise inteligente.
Realidade é oposta: Big Data aumentou desigualdade.
Por quê?
Infraestrutura é cara: Licenses de Wyscout, StatsBomb, Opta custam €200-500k/ano. Pequeno clube não consegue pagar.
Talento é raro: Um cientista de dados que sabe futebol custa €150-300k/ano. Pequeno clube não consegue competir com salário de Liverpool ou Manchester City.
Dados tem efeito cumulativo: Se Liverpool tem melhor infraestrutura de dados, contrata melhores jogadores. Melhores jogadores geram mais dados (sobre-realizando). Liverpool treina melhor modelo. Ciclo se repete. Brecha aumenta.
Resultado: Big Data beneficia clubes ricos (que conseguem pagar infraestrutura) e prejudica clubes pobres (que ficam para trás).
A questão de exploração de jovens jogadores
Quando clube usa Big Data para descobrir jovem talento em liga pequena, muitas vezes compra por preço artificialmente baixo, porque o jovem não tem “visibilidade”.
É aproveitamento? Ou descoberta legítima?
Perspectiva do clube: “Usamos análise sofisticada para encontrar talento. Pagamos preço justo pelo mercado do jogador. Temos direito a lucro por habilidade analítica.”
Perspectiva do jogador: “Clube rico usou recurso que eu não tinha (Big Data) para me comprar barato. Clube ficou com 80% do lucro quando eu vendi por 20x, mais tarde. Fui explorado.”
A questão é nebulosa eticamente.
Viés algorítmico: Quem é invisível para dados?
Algoritmo só consegue analisar jogadores que geram dados. Jogadores em ligas não-cobertas por serviços de dados (muitas ligas africanas, asiáticas, sul-americanas menores) são invisíveis.
Resultado: Talentos em ligas não-cobertas nunca são descobertos por Big Data, independentemente de quão bons sejam.
Isso perpetua hierarquia: jogadores de ligas cobertas (Europa, top Brasil) são valorizados. Jogadores de ligas não-cobertas são ignorados. Oportunidades não são distribuídas igualmente.
Risco Sistêmico: Se todos os clubes grandes usam mesmo software de dados (Wyscout, StatsBomb), todos ficam com mesma lista de candidatos. Isso pode criar “herd behavior” — todos tentam comprar mesmos jogadores, preços são inflacionados, bolha se forma. Quando bolha estoura, muitos clubes sofrem perdas simultâneas.
O futuro de scouting: cenários possíveis
Cenário 1: Consolidação (60% probabilidade)
Big Data se torna ferramenta padrão para 80% dos clubes de elite até 2030:
Cada clube grande tem equipe de 5-10 cientistas de dados
Scouting tradicional diminui em importância, mas não desaparece
Modelo hibrido (dados + humano) é padrão ouro
Desigualdade aumenta porque clubes ricos têm melhor infraestrutura
Cenário 2: Saturação (25% probabilidade)
Big Data se torna tão onipresente que vantagem competitiva desaparece:
Todos os clubes usam mesmas ferramentas (Wyscout, etc.)
Todos têm acesso aos mesmos dados de mercado
Diferenciação competitiva cai para zero
Volta-se a depender de outros fatores (treinador, estrutura, história do clube)
Cenário 3: Revolução ética (15% probabilidade)
Pressão por transparência e justiça força mudança estrutural:
Regulação exige que todos os clubes tenham acesso aos mesmos dados (open-source)
Fee system muda para compartilhar lucro mais equitativamente com ligas pequenas
Big Data deixa de ser ferramenta de exploração, torna-se de descoberta colaborativa
Conclusão: Big Data não substitui jogo, substitui ignorância
Big Data no scouting não é mágica. Não descobre Pelé baseado em algoritmo. Descobre jogador que é estatisticamente anômalo em seu contexto, e pergunta: “É sorte ou é genuíno talento?”
A verdade é que Big Data resolve um problema específico: como encontrar bom jogador entre 300 mil candidatos globais? Resposta: Usando dados, você consegue.
Mas Big Data não resolve outros problemas: Como saber se jogador vai se adaptar culturalmente? Como saber se vai manter mentalidade em novo clube? Como saber se vai lesionar-se? Essas respostas requerem olheiro — humano com intuição e experiência.
O futuro de scouting não é “humano vs máquina”. É “máquina amplificando humano”.
Máquina filtra infinidade de candidatos até handful de promissores. Humano então toma decisão final baseado em informação refinada.
Um clube que ignora dados é ingênuo. Um clube que depende apenas de dados é arrogante. Um clube que combina ambos é competitivo.
E é por isso que Liverpool descobriu Salah, Brighton descobriu Caicedo, e continuarão descobrindo talentos que mercado ignora — não porque têm melhor olheiro, mas porque têm melhor máquina amparada por melhor olheiro.
Para proporcionar uma melhor experiência, usamos tecnologias como cookies para armazenar e/ou acessar informações do dispositivo. O consentimento com essas tecnologias nos permite processar dados como comportamento da navegação ou IDs exclusivos neste site. O não consentimento ou a revogação do consentimento pode afetar negativamente determinados recursos e funções.
Funcional
Sempre ativo
O armazenamento ou acesso técnico é estritamente necessário para o objetivo legítimo de permitir o uso de um serviço específico explicitamente solicitado pelo assinante ou usuário, ou para o único objetivo de realizar a transmissão de uma comunicação por uma rede de comunicações eletrônicas.
Preferences
The technical storage or access is necessary for the legitimate purpose of storing preferences that are not requested by the subscriber or user.
Estatísticas
The technical storage or access that is used exclusively for statistical purposes.O armazenamento técnico ou o acesso que é usado exclusivamente com objetivos de estatística.
Marketing
O armazenamento ou acesso técnico é necessário, para criar perfis de usuário para enviar publicidade, ou para rastrear o usuário em um site ou em vários sites com objetivos de marketing semelhantes.