Baseball e as estatísticas

Abstract
Vamos viajar pela história do livro que mudou o baseball para sempre

Quinta feira, dia 29/03, é o Opening Day da Major League Baseball – o dia que da início à temporada regular do baseball norte-americano, dessa vez com todas as 30 franquias jogando ao mesmo dia.

Então para comemorar o começo da temporada da MLB e começar oficialmente nossa cobertura do esporte, vamos fazer dessa semana – a semana do Opening Day – a Semana MLB aqui no TM Warning.

A ideia dessa Semana MLB é dar uma boa base para o começo da temporada, para todo mundo: quem está chegando agora no esporte; quem já conhece o esporte e quer se aprofundar; e também as pessoas que já são do meio e querem ler um preview mais completo da temporada 2018. Serão QUATRO colunas na semana, incluindo duas colunas extras para falar de baseball.

A Semana MLB começou na segunda feira com um grande post sobre as regras do baseball. A ideia era apresentar não só as regras de um jogo de baseball, mas também o funcionamento de uma partida, para que alguém que nada conhecesse do esporte pudesse assistir a uma partida e pelo menos entender o que estava acontecendo – entender o que era marcado e o papel de cada jogada ou jogador em campo.

Agora é hora do segundo passo: vamos falar sobre as estatísticas e seu papel dentro baseball, além de passar um pouco sobre as principais estatísticas do esporte e como elas foram evoluindo ao longo do tempo.

Essa é na verdade uma repostagem de uma das colunas mais populares do meu site antigo, que estou atualizando e corrigindo um pouco e trazendo para cá na Semana MLB. Como sempre, encorajo quem tiver algum tipo de dúvida a respeito para deixá-la nos comentários, para que outras pessoas com as mesmas dúvidas possam ver as respostas lá.

Espero que gostem. E, lembrando, vocês podem ajudar o site a continuar produzindo conteúdo e sobrevivendo, e ter acesso a parte exclusiva desse conteúdo e muitos outros benefícios, se tornando assinantes do TM Warning.


Entre suas muitas virtudes e motivos para se gostar dele, o baseball tem uma grande vantagem adicional sobre qualquer outro dos grandes esportes americanos: Ele pode ser medido, mais eficientemente do que qualquer outro esporte, em estatísticas.

O baseball, de certa forma, é um esporte individual disfarçado de esporte coletivo, e tem as estatísticas capazes de medir com uma precisão absurda tudo que acontece num campo de baseball. O jogo é composto de várias jogadas separadas e pontuais, marcada por um confronto quase 1 vs 1 de rebatedor e arremessador, e é muito fácil pegar cada jogada e “isolar” cada fator a ser medido: o rebatedor, o arremessador, a performance da defesa, a performance de quem está em base, etc. Por ser um esporte com muitas jogadas que se repetem, você consegue comparar os fatores isolados dessas jogadas umas com as outras e ver quem está fazendo algo melhor ou pior do que a média. Isso acaba se traduzindo em uma base estatística muito boa que se traduz em uma medição numérica mais precisa do baseball do que qualquer outro esporte.

Se você me mostrar as estatísticas de um jogo de NBA, por exemplo, é possível ter uma boa noção de como esse jogador joga… Mas isso não diz tudo. Tem muita coisa que eu preciso assistir pra poder entender, porque cada jogador afeta a partida de formas que nenhum número capta: como ele se movimenta sem a bola, por exemplo, ou sua contribuição defensiva. Mas no baseball não, se eu souber olhar os números corretos, eu sei interpretar de forma muito eficiente praticamente todas as formas como um jogador afetou o jogo e no que ele é capaz de colaborar para um time. Nunca vai ser possível medir 100% de um esporte só nos números, claro, mas baseball é de longe o esporte que mais se aproxima disso – e se aproxima bastante.

Outro dos motivos disso acontecer é que a temporada regular da MLB é absurdamente grande (162 jogos), e portanto a amostra dos dados também é absurdamente grande, nos dando assim dados amostrais com variância muito menor. Hmm, não entendeu? Ok, deixa eu elaborar. Por exemplo, Ted Williams uma vez teve uma temporada com .406 de aproveitamento no bastão (40,6%, pros leigos), e ninguém chegou perto disso desde então (foi em 1941). Mas em uma série de 7 jogos de playoffs, já tivemos jogadores rebatendo coisas como .667 (66,7%). Porque? Porque esse ritmo que está muito acima do normal pode ser mantido por 7 jogos, mas nunca por 162. Com um numero enorme de jogos, as estatísticas tendem a regredir para sua média verdadeira, assim como uma moeda que você jogar por 1000 vezes vai dar resultados mais próximos da realidade (50% de caras e coroas) do que se você jogar 10 vezes. E mesmo assim, as estatísticas do baseball são tão boas (e o esporte tão propício a isso) que elas são capazes até de medir quando uma estatística está fora do seu número “correto”, ou quando um jogador deve sofrer uma “regressão” em determinada categoria (isso vai fazer mais sentido quando chegarmos na parte de estatísticas dos arremessadores).

Então o objetivo desse post é continuar de onde paramos no anterior: Se antes ensinamos a acompanhar o jogo, como ele funciona e o que acontece dentro de campo, agora vou mostrar um pouco das estatísticas usadas no baseball, o que significa cada uma e como interpretá-las (e também como essa avaliação mudou ao longo dos anos, mas sem aprofundar demais pra não ficar chato).

Dividi essas estatísticas em quatro tipos, dependendo do que elas são usadas para medir: Ataque, defesa, arremesso e geral. Isso vai fazer sentido em alguns parágrafos. E importante: estou considerando que se você está lendo esse post, então você conhece o básico do jogo de baseball, como Home Runs, Walks, Strikeouts e tudo mais – se você não sabe, recomendo que comece lendo a coluna de ontem primeiro. Algumas explicações adicionais serão dadas ao longo do post.

Moneyball e as estatísticas avançadas

Quem já viu o filme (ou melhor ainda, leu o livro) Moneyball – meu livro favorito – sabe que, até o Oakland Athletics do GM Billy Beane começar a usar estatísticas e números para avaliar o verdadeiro valor dos jogadores para o time (e usar isso para descobrir quais eram os atributos que mais contribuíam para a vitória e que eram menos valorizados pelo mercado, o segredo do time para montar equipes competitivos com o segundo time mais pobre da Liga em uma MLB sem teto salarial mesmo perdendo seus melhores jogadores quase todo ano para times que pagavam mais) lá pelo ano 2000, a avaliação de jogadores – seja pra Draft, seja para negociar salários, seja para trocas/contratações, e por ai vai – ainda era extremamente primitiva.

Essa avaliação era baseada nas mesmas estatísticas usadas desde 1900 (A velha historia do “Sempre foi feito assim!”) e com base no “conhecimento empírico” dos envolvidos, um conceito bem arrogante dos GMs, olheiros, técnicos e afins mais influentes na Liga – em geral ex-jogadores ou pessoas criadas nos meios do baseball. Eles simplesmente “sabiam” por causa dos seus “conhecimentos do esporte” e “experiência“. E depois se perguntavam, claro, porque o baseball sempre foi o esporte com mais busts.

Mas o engraçado é que as estatísticas usadas hoje (muito mais elaboradas, muitas vezes com sua importância e eficiência determinada a partir de regressões econométricas) como forma predominante de avaliar jogadores e o jogo em si já existiam desde o final de 1970, quando o agora lendário Bill James – um cidadão comum que simplesmente gostava de baseball – começou a compilar estatísticas e interpretá-las a cada temporada, evoluindo cada vez mais nas estatísticas e análises, muitas vezes se beneficiando do crescente poder tecnológico à sua disposição (Vocês vão entender quando chegarmos no UZR).

E isso acabou virando uma grande tendência… Entre os fãs! Essas novas estatísticas e interpretaçōes foram amplamente adotadas por – wait for it… – jogadores de fantasy (!!) e entusiastas ao redor do país, amplamente discutidas nos ciclos não-oficiais do esporte… Mas os dinossauros que compunham a cartolagem da MLB continuavam ignorando essas tendências como “subversivas” ou “não se comparam à experiência de anos de prática“, ou até mesmo a minha favorita, “os números tentam destruir a pureza do jogo“. Enquanto eles continuavam usando os métodos mais primitivos para avaliar jogadores de forma menos eficiente do que os fãs, o GM do pobre Athletics decidiu aplicar essas novas ideias para construir seu time que não tinha dinheiro.

Se funcionou? Bem, o segundo time mais pobre da Liga (e segundo menor folha salarial) teve o segundo maior número de vitórias na MLB durante o período 2000-2003, o Red Sox foi campeão em 2004 (depois de 86 anos de seca) após adotar o mesmo modelo, e desde então todos os times adotam esse modo de pensar em algum nível. Eu diria que sim, e por isso eu estou fazendo esse post.

Estatísticas de ataque
Principais estatísticas: OBP, SLG%, OPS, OPS+, wRC+

Antes de surgir o Moneyball e revolucionar como olhamos para estatísticas que medem a produtividade dos jogadores no bastão, apenas três estatísticas eram observadas de verdade: Média de rebatidas por passagem no bastão (Identificada por AVG, o famoso mais conhecido como “aproveitamento” ou “aproveitamento no bastão“), Home Runs (HRs) e corridas impulsionadas (RBIs).

(Um pouco de paciência aqui, vou dar umas voltas pra chegar nas estatísticas novas a partir das velhas, pra poder explicar de forma mais intuitiva pra quem não conhece tanto o esporte. Se tiverem sem paciência, sigam os negritos. A partir da próxima seção vou acelerar um pouco mais)

Essas três estatísticas são na verdade bem simples. AVG é uma estatística que era usada para medir o aproveitamento de um jogador como rebatedor. Ou seja, você pega o número total de rebatidas de um jogador, e divide isso pelo total de vezes que ele foi ao bastão e ou tentou a rebatida ou foi eliminado por três strikes (o chamado strikeout). Essa medida leva em consideração apenas as vezes que o rebatedor foi ao bastão e teria acontecido uma chance de rebatida, descartando portanto quando o jogador chega em base por um walk ou hit by pitch (considerados então um erro do arremessador e não mérito do rebatedor), pois nesse caso o rebatedor não teria tido a “chance” de rebater. Então se eu rebato 100 bolas e em 30 delas eu consigo chegar em base sem um erro dos adversários (já vamos explicar na próxima seção os erros), seja uma rebatida simples, dupla, tripla, Home Run, o que quer que seja, então meu aproveitamento no bastão é .300, ou 30%.

O Home Run é mais simples, é o número de vezes que você rebateu um HR e ponto. Essa estatística era usada pelos times pra medir a força de um jogadores, já que o Home Run é a rebatida de mais “força” de um jogo, que anota mais corridas e que gera mais bases ao rebatedor (quatro).

Por fim, o RBI é a estatística mais estúpida da história do baseball. Basicamente, ele mede quantas vezes um dado rebatedor, ao rebater, fez uma corrida ser anotada. Por exemplo, um jogador vai ao bastão e tem um companheiro na segunda base. Esse rebatedor da uma rebatida simples, e o seu companheiro consegue correr até o home plate e anotar uma corrida. Assim o rebatedor ganha um RBI, pois sua rebatida fez uma corrida ser anotada. Se esse rebatedor conseguisse um Home Run, por exemplo, ele ganha dois RBIs: Um pela corrida anotada pelo companheiro em base, e outra pela corrida que ele anotou ele mesmo, ambas por causa da sua rebatida. Acho que eu não preciso explicar porque essa estatística realmente não diz nada, certo? Ela depende demais da produção dos seus companheiros! Se dois jogadores quem joga em times diferentes e rebatem na mesma posição do lineup tem exatamente os mesmos números, um deles podem ter o dobro de RBIs do outro simplesmente porque seus companheiros chegam muito em base e portanto as rebatidas desse jogador impulsionarão mais corridas do que a do outro. Mas isso de forma alguma reflete a produção de um jogador individual, embora fosse usada como uma medida de produtividade ou valor real de um jogador. Eu digo que as estatísticas antigas eram estúpidas, mas enfim…

Bem, acontecem que o peso enorme que se dava para AVG e HRs (e muito menos RBIs) não refletia, de forma alguma, o quanto um jogador contribui para a vitória de um time.

Concentrando primeiro na questão do aproveitamento dos jogadores, os estatísticos começaram a fazer regressōes envolvendo diversos aspectos do jogo e chegaram a uma simples conclusão: Que no ataque, o mais importante em contribuição para um time pontuar era evitar ter jogadores eliminados. Isso faz todo o sentido do mundo. Baseball não é um esporte medido por tempo, como basquete ou futebol, e sim por eliminaçōes. Um jogo acaba quando um dos times tem 27 eliminados (3 a cada uma das 9 entradas, tirando prorrogaçōes e afins), e portanto evitando eliminaçōes você mantém seu time no jogo por mais tempo para anotar mais corridas.

Considere agora o seguinte cenário: Dois jogadores, A e B, que foram ao bastão 100 vezes. Jogador A rebateu todas essas bolas, e 30 delas viraram rebatidas. Jogador B rebateu 80 delas bolas e conseguiu 20 rebatidas válidas, mas nas outras 20 vezes que foi ao bastão ele trabalhou a contagem, evitou a eliminação, não rebateu bolas ruins, e conseguiu vinte walks. Portanto, o jogador B foi eliminado menos vezes e chegou mais em base, sendo assim mais útil para seu time. Mas os números nos indicariam que jogador A teve .300 de aproveitamento e o jogador B teve .250 (lembrando que, para AVG os walks não são computados como idas ao bastão), e portanto seria concluído – erroneamente – que o jogador A foi um rebatedor mais eficiente que o jogador B. E isso estaria errado, porque o jogador A foi eliminado 70 vezes e o jogador B foi eliminado apenas 60.

Então ficou claro que a estatística de AVG, ainda que mostrasse como um jogador era capaz de conseguir rebatidas, isso não era exatamente a melhor coisa para o time. Para um time vencer, era muito mais importante o quanto o jogador chegava em base quando ia ao bastão – e portanto evitava eliminaçōes. Por isso, uma nova estatística começou a aparecer como uma medida mais eficiente do que a antiga AVG, a chamada On Base Percentage (OBP), que mede exatamente isso: De todas as vezes que um jogador subiu ao bastão, em quantas ele chegou em base, seja por rebatida ou por walk. Usando o exemplo anterior, o jogador A teria um OBP de .300 (30 vezes em 100), enquanto o jogador B teria um OBP de .400 (40 em 100). Então os números me diriam algo diferente: O jogador A era melhor conseguindo rebatidas, mas o jogador B era mais eficiente no bastão porque sabia chegar em base e evitar eliminaçōes. OBP, portanto, seria um indicador melhor de eficiência no bastão do que AVG.

E, quando se chegou a essa conclusão, os estudiosos da época trataram naturalmente de comprovar empiricamente se isso realmente se verificava na prática: ou seja, se OBP realmente era melhor do que AVG em explicar a performance ofensiva de uma equipe. Fazendo uma regressão, notou-se que quando correlaciona aproveitamento no bastão com o total de corridas anotadas de um time, a correlação entre os dois fatores é de cerca de 62%. Quando se usava OBP para explicar as corridas anotadas por um ataque, esse número pulava para quase 85%, comprovando assim a ideia de que OBP era um indicador muito melhor da produtividade de um jogador no bastão (e suas contribuições para o time) do que AVG. Essa, na verdade, é a base do Moneyball: sempre buscar validações e confirmações científicas e empíricas antes de tomar algo como verdade.

Mas tem uma outra coisa que precisa ser levada em conta na hora de medir a qualidade de um rebatedor, que é a força das rebatidas. Como dito anteriormente, AVG contabilizava rebatidas como sendo todas iguais, sem fazer distinção entre o tipo de rebatidas. Se dois jogadores conseguem 10 rebatidas em 30 tentativas, só que um deles rebate 10 Home Runs e o outro 10 rebatidas simples, ambos teriam o mesmo aproveitamento e o mesmo OBP, mas o primeiro teria sido um jogador muito mais importante e produtivo para o seu time. Por isso, concluíram alguns, Home Runs – a rebatida de força máxima do jogo – é uma boa medida de força no bastão, certo?

Hmm, não. Imagine o seguinte cenário: Jogadores A e B, cada um foi ao bastão 150 vezes e teve 50 rebatidas. O jogador A acertou 10 Home Runs, e o jogador B acertou 5 HRs e mais 20 rebatidas duplas. Ambos teriam o mesmo aproveitamento e o OBP, mas o jogador A teve mais Home Runs… Mas será que sua força ao rebater 10 HRs foi mais útil do que a força do jogador B, que rebateu apenas 5 Home Runs mas teve outras 20 rebatidas duplas? Por isso foi criada uma medida chamada Slugging Percentage (SLG%), cujo cálculo é semelhante ao do aproveitamento no bastão (AVG), mas com uma diferença: Ao invés de dividirmos o número de rebatidas pelo número de idas ao bastão, dividimos o número total de bases que esse jogador conseguiu com suas rebatidas. Portanto cada rebatida simples ganha 1 base, rebatidas duplas ganham 2 bases, triplas 3 bases, e Home Runs ganham quatro bases. Essa estatística serve pra mostrar a habilidade do jogador para rebater pra ganhar bases (portanto não faz sentido incluir walks), e no nosso exemplo, teríamos que o jogador A ganhou 80 bases em 150 rebatidas (.533) e o jogador B ganhou 85 para um SLG% de .567. Portanto, o jogador B rebateu por força melhor que o jogador A, apesar de ter tido menos Home Runs.

Agora temos duas medidas eficientes pra medir o valor de um jogador no bastão: OBP pra medir a capacidade do jogador pra chegar em base e evitar eliminaçōes, e SLG% pra medir a produção de bases extras desse jogador. Como podemos combinar, portanto, essas duas coisas em uma só? Somando as duas, é claro! Surgiu assim a chamada On Base Plus Slugging (OPS) que é simplesmente a soma da OBP com a SLG% de um jogador. Portanto se um jogador tem um OBP de .350 e um SLG de .550, seu OPS será um ótimo .900, ou 90%. Essa medida tem falhas (ja vamos chegar nelas), mas é uma medida simples, fácil e eficiente de medir como o jogador é capaz de conseguir as duas coisas mais importantes pra um ataque: Chegar em base, e conseguir rebatidas extras.

(E, novamente, as pessoas não se contentaram com a teoria e foram atrás de uma comprovação científica e empírica para isso. Usando SLG% para explicar a performance ofensiva de uma equipe, a correlação entre isso e corridas anotadas pelo ataque se aproximou bastante dos 85% do OBP. Quando se usou OPS? Subiu para mais de 90%.)

O passo seguinte nessa caminhada então foi a criação do On Base Plus Slugging Ajustado (OPS+), cujo cálculo é meio difícil pra explicar em detalhes, mas que corrige os três últimos problemas do OPS simples: Primeiro que os jogadores rebatem em campos com dimensōes diferentes, e portanto isso pode influenciar (e influencia bastante) os números de um jogador (quem rebate em um campo menor tem maior facilidade em rebater Home Runs, por exemplo) na hora de conseguir rebatidas; segundo, que .100 em SLG% e .100 em OBP não significam a mesma coisa para um ataque em termos de contribuição, mas no OPS elas são tratadas com o mesmo peso (estudos mostram que OBP tem um peso entre 2 e 3 vezes maior do que SLG%. Vale citar também, porém, que o máximo que pode se ter em OBP é 1.000 – chega em base a cada vez que vai ao bastão – mas o máximo que se pode ter em SLG% é 4.000, conseguindo quatro bases – ou HRs – cada vez que rebater); e por fim, a dificuldade de usar OPS para comparar jogadores de diferentes eras, principalmente por causas de diversas diferenças no jogo (e sim, especialmente a era dos esteroides).

Portanto, OPS+ usa o OPS normal como base, mas com pesos diferentes para SLG% e OBP, e incluindo com um termo de ajuste para estádio e e para o resto da Liga naquela temporada para calcular a produção de um jogador contra um rebatedor “médio”: a produção média da liga é normalizada para um OPS+ de 100, e a produção dos jogadores medida contra esse número – ou seja, se eu vejo que Mike Trout teve um OPS+ de 190, quer dizer que a estatística indica que ele foi 90% mais produtivo nas suas passagens no bastão que um jogador médio da liga. É uma fórmula mais complicada, mas mais precisa que OPS, pra medir o valor individual de um jogador como rebatedor.

Por fim, foi criada uma estatística chamada Weighted Runs Created Ajustada (wRC+). Essa estatística é uma forma de aperfeiçoar o OPS+: ela pega o resultado de todas as passagens pelo bastão de um jogador (rebatidas simples, duplas, walks, HRs, strikeouts, etc), computa o valor que cada um desses eventos separadamente gera para um ataque em uma situação “normal”, junta tudo isso para ver o total adicionado de valor durante todas aquelas passagens no bastão, e ajusta para todo tipo de fator externo (como estádio, por exemplo).

Para finalizar, a estatística ainda é ajustada com base no resto da liga, tendo o mesmo efeito do OPS+ para comparar diferentes eras, se tornando assim um indicador sobre quantas corridas um jogador gerou com seu bastão relativo ao “médio” na liga. Então novamente sendo 100 a “média” de qualquer normalização, se um jogador termina a temporada com wRC+ de 150, isso significa que ajustando para o estádio no qual jogou metade de seus jogos, ele gerou 50% a mais de corridas do que um jogador médio na liga para o seu time. Da mesma forma, se ele teve um wRC+ de 80, ele foi 20% menos produtivo no bastão do que um jogador comum. É a forma mais condensada e avançada para medir, em um vácuo, a produção no bastão de um jogador em comparação com o resto da MLB que temos hoje.

Estatísticas de defesa
Principal estatística: UZR, DRS, Defense

Se você acha que as estatísticas usadas antigamente (ou nem tão antigamente, por alguns GMs) pra medir a eficiência ofensiva dos jogadores era primitiva, esperem até ver essa aqui. Ate Bill James e a revolução estatística, a única estatística defensiva que existia eram os chamados Erros.

Muito simplesmente, um Erro é quando um jogador comete algum erro que resulta em uma vantagem para o adversário, seja um jogador que deveria ser eliminado e não foi, um errou de lançamento que resultou em uma base extra para um jogador, etc. Por exemplo, se eu rebato a bola para o shortstop de forma que ele possa me eliminar antes de chegar na primeira base, mas o shortstop fura a bola e eu consigo chegar em base, ele cometeu um erro (e isso não conta como rebatida válida para mim). Se eu consigo uma rebatida simples, mas na hora de jogar a bola de volta o RF lança a bola longe e eu consigo correr até a segunda base (o que eu não conseguiria se ele não errasse o arremesso), conta como uma rebatida simples pra mim e um erro do RF. E por ai vai.

Ok, por onde eu começo a falar dos problemas dessa estatística? Primeiro, ela é extremamente subjetiva: quem determina o que “deveria” ter acontecido na jogada (ao invés do erro) é o juiz da mesa, e ele que vai portanto interpretar se a jogada foi um erro, mérito do rebatedor, e por ai vai. Duas pessoas podem interpretar diferente o mesmo lance, e por ai vai, o que inevitavelmente ocorre pois você tem um número consideravelmente grande de pessoas diferentes fazendo esses julgamentos e registros.

Mas segundo e muito mais importante, ela é extremamente limitada! Se você cometeu um erro, é porque estava na bola no primeiro lugar, então você tem algum mérito por isso. Eu posso ter feito uma excelente jogada, lido perfeitamente a rebatida, me movimentado numa velocidade sobre humana pra chegar numa bola… Só que na hora que eu pulei pra pegar a bola e fazer a eliminação, a bola bateu na minha luva e caiu, e o juiz me deu um erro. Isso é extremamente injusto, pois com qualquer defensor da Liga alem de mim teria sido uma rebatida simples, mas por causa da minha habilidade superior, eu consegui chegar na bola… E fui penalizado por isso. Antigamente, os erros eram somados e quem cometia menos era o melhor defensor, mas imagine a seguinte situação: Numa temporada, dois RFs terminam com zero erros. Só que um deles é extremamente rápido, inteligente, chega em mais bolas do que nenhum outro jogador chega… E o outro é um cara bem fora de forma, lento e preguiçoso, que não comete erros simplesmente porque nunca chega em nenhuma bola por conta da sua falta de mobilidade e habilidade. Como você diferencia entre os dois? Como é possível saber medir qual o melhor defensor? Será que um jogador com mais erros as vezes não é um defensor melhor, e comete erros porque está fazendo mais jogadas?

O eterno argumento do “medir visualmente”, o velho clichê do “eu sei”, também é ridículo por três motivos. Primeiro, lógico, pela enorme subjetividade de você simplesmente achar que sua interpretação visual de algo é melhor que a de outra pessoa ou uma verdade. Segundo, porque um bom defensor vai defender cerca de 1300 entradas e estar envolvido em mais de 800 jogadas, e seu teste visual NUNCA vai ver todos esses lances, acompanhar e avaliar cada um deles, para te dar um resultado realmente preciso da performance defensiva de um jogador – além dos muitos lances que não vemos por motivos diversos, nosso cérebro tente a se focar mais nas jogadas mais chamativas e ignorar a GRANDE maioria das jogadas mais de “rotina” que muitas vezes são 90% da performance defensiva de um jogador. E terceiro porque o teste visual engana: você pode ter por exemplo um defensor com bom braço e boas mãos, mas limitadíssima mobilidade. Nas bolas rebatidas para ele, ele vai pegar as bolas e lançar bem para as eliminações, mas ele vai ter muita dificuldade de chegar nas bolas rebatidas ao seu redor. Nesse caso, seu teste visual vai achar ele um bom defensor, já que as jogadas que ele está efetivamente envolvido são boas e plasticamente bonitas, mas ele vai deixar de registrar as muitas jogadas que o jogador NÃO está envolvido mas que deveria estar se fosse um defensor decente, e que não são computadas como erros e nem pelo seu teste visual porque o jogador nem sequer chegou na bola. E você estaria possivelmente chegando na conclusão errada.

Por isso foi criado o Ultimate Zone Rating (UZR), a minha segunda estatística preferida depois de WAR, uma daquelas estatísticas que é extremamente difícil de calcular, mas bem precisa e extremamente fácil de entender. Para calcular o UZR, você divide o campo em 64 zonas e computa onde cada bola rebatida foi cair, com que velocidade e com que inclinação. E dai, a cada jogada que envolve um jogador defensivo, se utiliza essa base de dados pra comparar qual foi o resultado da jogada envolvendo esse jogador em questão em relação a todas as outras jogadas defensivas que envolveram essa bola sendo rebatida dessa forma (velocidade e inclinação) para o mesmo lugar, e computa como essa jogada defensiva – em relação ao “normal” desse tipo de jogada – afetou as chances do adversário de anotar uma corrida.

Um exemplo pra ilustrar: Imagine que o primeiro rebatedor de um jogo sobe ao bastão. Nessa situação (nenhum eliminado, bases vazias), um time marca em média cerca de 0,47 corridas. Agora o primeiro rebatedor rebate a bola para o campo direito, com velocidade/ângulo e para um certo lugar onde, 95% das jogadas, ele é eliminado. No entanto, o RF estava desatento e saiu atrasado, permitindo que a bola passasse por ele para uma rebatida dupla. Nesse caso, o UZR computa para o RF a diferença entre o que aconteceu nos casos casos computados anteriormente (uma média ponderada entre todas as situaçōes, mas na grande maioria dos casos aqui seria um eliminado e nenhum em base, e nessa situação um time anota em média 0,26 corridas) e o que aconteceu de fato (uma rebatida dupla – nessa nova situação, nenhum eliminado e um homem na segunda base, um time anota em média 1,1 corridas). Nesse caso, portanto, o jogador sairá da jogada com um UZR igual a 0,26 – 1,1 = – 0,84. Em outras palavras, defensivamente, esse RF custou ao time (estatisticamente) 0,85 corridas em relação a um jogador “médio” nessa jogada. Some tudo, e você sabe quanto o jogador ajudou ou custou ao seu time em jogadas defensivas ao longo do ano.

Portanto, o UZR é difícil de calcular, e exige certas tecnologias que só passaram a estar disponíveis no século XXI, mas uma bem fácil de interpretar: Ele representa o número de corridas que a defesa daquele jogador impediu (estatisticamente) em relação a um jogador médio da mesma posição. Quando eu digo que o melhor defensor da MLB em 2011 é o Brendan Ryan com um UZR de 15,2, isso significa que ter Ryan no seu time ao invés de um Shortstop “médio” evitou que fossem marcadas 15,2 corridas contra o Mariners. Quando eu digo que o Curtis Granderson é o pior CF defensivo da MLB com um UZR de -15,9, é fácil entender que sua defesa é tão ruim que substituindo-o defensivamente por um CF médio teria evitado quase 16 corridas contra o Yankees. E por ai vai.

Uma variação do UZR é o Defensive Runs Saved (DRS). Ele usa em base o mesmo princípio do UZR: calcular e computar todas as bolas rebatidas em função da localização, velocidade e ângulo, e compara a jogada realizada pelo defensor com o que um defensor médio faz naquele tipo de bola. A diferença entre UZR e DRS é o que a estatística usa para criar o cálculo: a DRS, no caso, está mais preocupada em ver se aquela bola se tornou uma eliminação ou não ao invés de computar as diferentes situações de jogo. Então por exemplo, se é feita uma rebatida na região do CF que gera uma eliminação 60% das vezes, e o jogador faz a eliminação, ele é creditado com 40% de uma eliminação, o que a sua jogada “adicionou” sobre a média. Dai então o DRS vai contabilizar quanto o total de eliminações um jogador adicionou (ou custou) ao seu time ao longo do ano convertendo a partir do valor médio de uma eliminação, e também vai te dar quantas corridas aquele defensor salvou (ou custou) para o time em relação a um jogador médio da mesma posição. Entre as duas, UZR e DRS, é uma questão de preferência: eu pessoalmente acho UZR mais completa, mas ambas são bastante utilizadas, fáceis de entender e bem úteis.

O site especializado Fangraphs recentemente levou essas estatísticas um nível acima fazendo um ajuste por posição, e criando a estatística Defense, ou DEF. A ideia é, novamente, bem simples: pegar uma estatística defensiva que compare a performance de um jogador contra um defensor médio da posição (o Fangraphs usa UZR, mas a mesma lógica pode se aplicar a DRS), e fazer um ajuste para poder comparar defensores de posições diferentes. Por exemplo, você pode ter um 3B e um LF com +10 de UZR, o que significa que ambos salvaram 10 corridas a mais que um 3B ou um LF médio. Só que um 3B médio é um defensor melhor, que salva muito mais corridas, do que um LF médio – a posição tem um valor defensivo muito maior do que outra, então para poder comparar jogadores de diferentes posições você precisa fazer o ajuste por esse tipo de coisa.

É o que o DEF faz: ele compara a performances de jogadores em posições diferentes para achar um valor “comparativo” entre as posições. Por exemplo, o Fangraphs comparou jogadores iguais jogando em posições diferentes e concluiu que durante uma temporada completa (1458 entradas) um 3B médio vai salvar 10 corridas a mais que um LF médio. Então o DEF pega o UZR desse 3B e adiciona esse fator posicional (ponderado pelo total de entradas jogadas) para chegar em um valor total que torne fácil comparar produção defensiva entre diferentes posições: esse 3B teve UZR de 10, e seu fator de ajuste por uma temporada é de +2,5, então ele salvou um total de 12,5 corridas em relação a um defensor médio da MLB, e não mais da sua posição. Da mesma forma, o fator de posição do LF será de -7,5 por uma temporada completa, então ele salvou apenas 2,5 corridas em relação a um defensor médio da liga. Fácil de entender, e fácil de usar.

Estatísticas de arremesso
Principais estatísticas: ERA, BABIP, FIP

Tradicionalmente, arremessadores sempre foram medidos por uma estatística útil chamado ERA (e antigamente, bons arremessadores só eram valorizados se tivessem bolas muito rápidas – mais uma estupidez dogmática que faz a gente entender porque a MLB era a Liga que pior aproveitava talento nos EUA).

O ERAEarned Runs Average – pega todas as Earned Runs, ou corridas merecidas cedidas (Quando um pitcher está arremesando e cede uma corrida, é computado uma Earned Run A NÃO SER QUE essa corrida pudesse ter sido evitada, em algum momento, mas não foi por causa de um Erro da defesa – seja esse erro pra ele chegar em base, pra eliminar um terceiro jogador que teria encerrado a entrada antes dessa corrida, e por ai vai. Se for o caso, é uma Unearned Run, corrida não merecida, e não conta no ERA) cedidas por um arremessador, divididas pelo número de entradas arremessadas, multiplicadas por 9. Em outras palavras, mede quantas corridas um arremessador cede a cada nove entradas (ou um jogo completo) jogadas, e é uma boa medida de avaliar a produção de um pitcher até um dado momento.

Mas o ERA tem uma limitação: Ele mede apenas o que aconteceu, mas não separa exatamente o que nisso foi graças ao arremessador ou aos demais fatores. Dois pitchers exatamente iguais, mas um jogando com uma excelente defesa e outro jogando com uma defesa ruim, provavelmente vão ter ERAs diferentes mesmo se jogarem igualmente bem, porque a quantidade de corridas cedidas por um time certamente será menor quanto melhor for a defesa, mesmo que a defesa ruim não cometa mais erros. E além disso, tem o fator sorte: O quanto ela influencia na produção de um arremessador? E se, ao longo de uma temporada, essa sorte normalmente “zera” (mas nem sempre), quando ela vai mudar e como isso influencia o arremessador (quem joga fantasy sabe do que eu falo)?

Essa última parte sobre “sorte” parece um pouco esquisita, não é? Então volte comigo pro final dos anos 90, quando um cara chamado Voros McCracken – um fã de baseball que brincava com estatísticas nas horas vagas – concluiu que tinha apenas três fatores em um jogo de baseball que o arremessador controlava: Home Runs cedidos, walks, e strikeouts (quando um jogador é eliminado com três strikes). Em outras palavras, ele concluiu que, sobre as bolas que os rebatedores colocavam em jogo (Home Run não chega a entrar em jogo), os arremessadores não tinham controle quase nenhum.

Parece um absurdo, certo? Afinal, grandes arremessadores, com grandes arremessos, deveriam ser capazes de segurar os adversários a um aproveitamento menor uma vez que a bola é colocada em jogo. A comunidade da MLB achou um absurdo sem tamanho, e mesmo a comunidade das Sabermetrics (as estatísticas e análises do esporte) achou algo ridículo, até que o próprio Bill James (como muitos outros) começou a coletar dados pra mostrar que Voros estava errado. Mas ninguém conseguiu, porque ele não estava: não importa quantos novos estudos fossem feitos a respeito, a tese de McCracken continuava se provando correta.

E foi aí que surgiu a estatística chamada BABIPBating Average for Balls in Play (algo como “aproveitamento das rebatidas em bolas colocadas em jogo”). Os estudos de Voros – eventualmente comprovados pela comunidade estatística – mostram que o valor dessa estatística (a proporção das bolas colocadas em jogo que efetivamente viram rebatidas) com uma amostra suficientemente grande tende a ser praticamente igual pra todos os arremessadores, geralmente em torno dos .300 (afetada ligeiramente apenas por fatores como estádio e tipo dos arremessos). Ainda que as vezes tenhamos alguns pitchers com uma temporada acima ou abaixo dessa média, nunca isso se manteve ao longo das demais temporadas ou ao longo do tempo. Portanto, o BABIP é bem simples de interpretar: Se um pitcher está com um BABIP muito fora da curva, é porque a sorte tem interferido bastante nesse tipo de jogada – seja acima (tendo azar) ou abaixo (tendo sorte) do nível normal, isso indica que dificilmente o pitcher vá continuar com esse tipo de atuação por muito tempo.

Isso não quer dizer que o arremessador não tenha NENHUM controle sobre seu BABIP: alguns fatores podem afetar o BABIP de um pitcher, principalmente a composição das suas eliminaçōes (eliminaçōes pelo chão, pelo ar, etc) e da composição dos seus arremessos. Por exemplo, um arremessador que induz mais bolas rasteiras vai ter um BABIP um pouco menor do que alguém que vive de ceder rebatidas fortes ou em linha. Esse controle é, no entanto, muito limitado – não mais do que um ponto percentual para mais ou menos em 99% dos casos. Em geral, o que é fácil observar é quando esse número está muito fora da curva: alguém como por exemplo Carl Pavano em 2009, que teve BABIP de .329, certamente teve bastante azar e poderia esperar esse número melhorasse nos anos seguintes. E de fato, entre 2010 e 2011, o BABIP de Pavano foi de .294, 0,3 pontos percentuais abaixo da média da liga nessas temporadas. Flutuações do BABIP além do normal não é algo sustentável, para bem ou para mal.

Mas o BABIP explica apenas a parte da sorte nas bolas em jogo que o arremessador tem. Isso não é a única coisa que influencia o ERA de um arremessador. A defesa da equipe, por exemplo, também tem um papel importante nisso. Por isso foi criado o FIPFielding Independent Pitching – que mede exatamente o que o nome sugere, o seu ERA uma vez removidas as influências da defesa e demais fatores (inclusive sorte/acaso) focando exatamente nas três coisas que um pitcher é capaz de controlar: Strikeouts, walks e Home Runs. A conta é complicada e alguns centros ainda divergem no melhor método pra calcular o FIP, mas a interpretação é simples: Quanto seria, aproximadamente, o ERA de um pitcher levando em conta APENAS a sua performance individual, e não fatores como sorte ou defesa. Uma medição muito mais real da produção do jogador em si, e não coletivamente da defesa do time.

Portanto se um arremessador está com um ERA de 3.30, você pode olhar e pensar “nossa, esse cara está jogando bem!“… Mas ai você repara que ele também está com um BABIP de .260 e um FIP de 4.4, e percebe que não é exatamente assim, e que ele tem tido uma boa ajuda tanto da sua defesa como da sorte e demais fatores que ele não controla – e provavelmente vai sofrer uma regressão conforme a temporada avança, pois esses fatores tendem a nivelar com uma amostra maior. Da mesma forma, um pitcher com um ERA de 3.8 mas com um BABIP de .320 e um FIP de 3.4 tem um mérito individual muito maior que o outro, mas não tem sido tão ajudado por fatores além do seu controle. Então o FIP acaba se tornando uma maneira muito melhor de medir o nível de performance real de um arremessador, e também oferece um indicador muito mais consistente para se prever performances futuras de um jogador do que o ERA, que é afetado por uma série de fatores aleatórios que o arremessador não controla e não tendem a se repetir ao longo do tempo.

Uma curiosidade relacionada: Como vocês devem ter percebido, isso é extremamente útil quando se está jogando fantasy para prever a performance futura de jogadores. Em 2011, por exemplo, Josh Beckett estava com um ERA de 2.10 e vindo de três one-hitters consecutivos lá pelo meio da temporada e um amigo aproveitou isso pra pular pra primeiro lugar na nossa Liga de fantasy baseball. Quando ele recebeu uma oferta de troca (Albert Pujols e algum arremessador que eu não lembro), eu imediatamente mandei mensagem pra ele avisando para aceitar. Por mais estranho que parecesse a ideia de trocar talvez o melhor arremessador da temporada até ali, eu tinha meus motivos: Beckett estava com um BABIP de .220 e um FIP de 3.4 praticamente gritando “REGRESSÃO!” na minha cara, indicando que sua produção atual não era seu nível real de jogo e não se manteria por muito tempo, enquanto que Pujols voltava de lesão devagar mas estava com um BABIP – que é muito menos confiável e preciso para rebatedores, pois estes controlam bem melhor seu BABIP, mas ainda é um indicador válido em casos extremos – abaixo de .200. e o arremessador que vinha junto na troca tinha um FIP respeitável. Ele fez a troca, Beckett regrediu e não voltou a arremessar naquele nível, Pujols pegou fogo, e meu amigo ganhou a Liga de fantasy. A lição, como sempre: As vezes fãs realmente sabem mais que GMs – até em times de fantasy.


Estatísticas gerais
Principais estatísticas: VORP, WAR

Agora que temos estatísticas eficientes para medir a produtividade e eficiência de jogadores em termos de arremessos, rebatidas e defesa, está na hora de juntar tudo isso em uma só medida para a produção total de um jogador num campo de baseball. A ideia agora não é mais medir a produtividade por jogada – como funcionam FIP ou wRC+, por exemplo, que medem a eficiência do jogador a cada entrada arremessada ou passagem no bastão – e sim atribuir um valor total que o jogador contribuiu para seu time. E pra isso temos duas estatísticas principais, VORP e WAR.

Embora eu não seja muito fã de Value Over Replacement Player (VORP), algo como “valor sobre um jogador substituto”, por não levar em conta defesa, eu decidi colocar ela aqui por um simples motivo: Ela é precisa e é extremamente fácil de entender. Ela basicamente mede a capacidade de um jogador de produzir corridas (ou, no caso dos arremessadores, evitá-las) acima do que produziria um jogador de Replacement Level (Algo como “Nível de substituição“), que geralmente é definido como o nível de performance esperado quando um time tenta substituir um jogador de uma certa posição a um custo mínimo (algo como entre 70 e 85% de um jogador médio daquela posição, na média, variando dependendo da oferta de talento disponível em cada posição).

Portanto, se eu te digo que o VORP do JD Martinez ano passado foi de 77, quer dizer que ele produziu 77 corridas a mais para o seu time no ataque (Rebatendo, chegando em base, correndo nas bases, tudo) do que um RF um pouco abaixo da média (no caso dos pitchers, o contrário: evitou X corridas a mais do que um arremessador assim). Simples, direto, leva em conta quase todos os aspectos relevantes (tirando defesa) como roubos de base, velocidade nas bases, jogos perdidos, etc e é bem fácil de entender, bom pra comparar jogadores… Pena que seja dificílimo calcular. Mas tudo bem, tem sites que calculam pra gente, como o Fangraphs e o Baseball-Reference.

Então VORP é uma boa estatística pra comparar jogadores. Mas mesmo assim, não ganha da minha estatística favorita nos esportes, o WAR – ou Wins Above Replacement. Outra estatística difícil de calcular, mas que pega o VORP e leva a um outro nível, incorporando defesa e qualquer outro aspecto presente no jogo de um determinado jogador e nos diz quantas vitórias um certo jogador da a um time sobre o famoso “Replacement Player“, aquele jogador que o time buscaria no mercado a um salário mínimo se precisasse substituir um jogador que se machucou. Ou seja, ele é mais preciso que o VORP porque o VORP é uma medida apenas ofensiva e o WAR mede todos os aspectos desse jogador e no que ele afeta o jogo, mas ao invés de nos dizer em corridas, nos diz em vitórias – mais fácil de usar ou entender, impossível.

Portanto se ano passado Aaron Judge (8.2) foi o líder em WAR da liga, isso quer dizer que se tirássemos ele do Yankees e colocássemos no lugar um substituto um pouco abaixo da média da posição que o time encontraria disponível no mercado a um custo mínimo para jogar os mesmos 155 jogos que Judge jogou, o Yankees teria 8.2 vitórias a menos – levando em conta também o quanto ele perdeu de jogos e tudo mais. E ela é minha estatística favorita porque, se você pegar uma lista de WAR de uma temporada, vai ver que não necessariamente ela te da os melhores jogadores, mas te da os mais valiosos de uma forma as vezes sutil: Por exemplo, em 2009 o melhor WAR da Liga (8.6) foi de Ben Zobrist, acima dos MVPs Joe Mauer (7.6) e Albert Pujols (8.4). Apesar de Mauer e Pujols terem números ofensivos melhores, Zobrist (que também teve bons números ofensivos e um OBP fantástico de .406) provavelmente foi mais valioso pra Tampa por dois motivos: Primeiro, ele contribuiu muito mais do que Pujols e Mauer na defesa (foi o terceiro melhor defensor da liga) e correndo as bases; e segundo, ele jogou em SETE posiçōes diferentes ao longo da temporada, passando a maior parte do tempo mudando entre 2B e RF… E teve um UZR positivo em todas elas, inclusive 15 e 10 em 2B e RF, respectivamente, adicionando muito para a flexibilidade da equipe. Ele também jogou 14 jogos a mais que Mauer, o que significa que teve mais tempo em campo para contribuir com o seu time. Então a contribuição total de Zobrist ao longo do ano para o Rays superou a que Cardinals e Twins receberam de Pujols e Mauer, respectivamente.

WAR tem, claro, alguns pequenos problemas: Por exemplo, como as duas Ligas possuem regras diferentes quanto ao DH, o WAR normaliza a AL e a NL de forma separada pra tirar essa diferença. O problema é que isso assume que o talento nos dois lados é aproximadamente igual… E quanto não é o caso e temos uma clara disparidade, fica um pouco difícil usar WAR pra comparar jogadores de diferentes Ligas – especialmente pitchers. Da mesma forma, essa estatística ainda é limitada pelos seus componentes: se uma estatística defensiva como UZR ou DRS não é tão eficiente medindo a defesa de catchers, por exemplo (o que realmente acontece), WAR vai levar essa ineficiência e provavelmente causar catchers para serem avaliados de forma menos eficiente do que os demais jogadores que estão sendo comparados.

Ainda assim, são problemas muito pequenos diante de uma estatística tão sensacional, completa e eficiente como WAR.

WAR, aliás, tem três variações hoje dependendo de quem calcula: o site Fangraphs tem o fWAR; o site Baseball-Reference tem o rWAR; e o site Baseball Prospectus calcula o WARP. Todos são a mesma coisa em essência, com pequenas variações apenas na forma de calcular (por exemplo, alguns usam UZR e outros DRS para defesa) e nos pesos – eu pessoalmente prefiro o do Fangraphs por ter a fórmula mais completa, mas todos tem o mesmo propósito e seguem a mesma lógica.

Resumo final

Ufa, ta acabando. Então vamos lá rever o que vimos na coluna de hoje:

Principais estatísticas de ataque: OBP (Aproveitamento para chegar em base e evitar eliminaçōes), SLG% (Medida de força pra quantas bases um jogador consegue por rebatida), OPS (produtividade total no bastão), OPS+ (OPS ajustada por estádio, era e com pesos adequados) e wRC+ (medida condensada do valor de um jogador rebatendo, ajustado por era e estádio); são as medidas usadas pra verificar a produtividade de um jogador no bastão e como ele contribui assim para a equipe.

Principais estatística de defesa: UZR e DRS (Quantas corridas um jogador cede a menos defensivamente que um jogador “médio” na mesma situação) são usadas pra medir a eficiência defensiva de um jogador contra a média da posição, e DEF para medir a eficiência defensiva contra a média geral da liga.

Principais estatísticas de arremesso: ERA (Corridas cedidas por nove entradas), BABIP (Bolas em jogo que viram rebatidas) e FIP (ERA tirando tudo que não está no controle do arremessador); são usadas pra avaliar a produtividade real de um arremessador e o quanto ele tem sido ajudado por sorte e demais fatores além do seu controle.

Principais estatísticas gerais: VORP (Quantas corridas a mais – ou a menos – um jogador de campo  – ou pitcher – gera para seu time em relação a um jogador de replacement level), WAR (Quantas vitórias um certo jogador te da acima de um jogador de replacement level); são usadas pra avaliar o valor total de um jogador a um determinado time ao longo do tempo.

Deu pra entender tudo? Espero que sim. Se alguma coisa não ficou clara ou tiverem mais alguma dúvida a sanar, por favor deixem nos comentários que eu respondo assim que possível.

Espero que tenham aproveitado e que se interessem mais agora por baseball e pelo que os números nos dizem. Até a próxima!

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

w

Connecting to %s