Nota Muy Importante
Debido a la migración del software, las contraseñas de los usuarios se deben resetear para poder participar en el foro. Por favor, en el formulario hagan click en "recuperar contraseña". Si hay algún inconveniente, por favor, háganmelo saber. Gracias y disculpen las molestias.
Por qué WAR debe usarse con cautela
A la hora de elegir a los mejores jugadores de una temporada, es común en estos tiempos basarse únicamente en el WAR para decidir que un jugador A ha sido mejor que el B. Esto tiene un problema y es que tanto fWar (calculado por Fangraphs) y rWar (Baseball-Reference) contienen elementos subjetivos, particularmente en lo que respecta a defensa.El margen de error en algunos casos puede llegar hasta a + - 2 puntos de WAR, lo cual es bastante.
Acá dejo el enlace a un excelente artículo que Jeff Passan ha publicado sobre el tema (está en inglés):
Tómenlo en cuenta para los alter premios.
No son de extrañar las diferencias entre rWAR y fWAR si tomamos en cuenta que todavía no hay consenso sobre cómo medir la calidad defensiva de un pelotero ni tampoco sobre como valorar el aporte de la defensa al éxito de un equipo. Pero realmente las diferencias mas grandes entre rWAR y fWAR no son entre jugadores de posición sino entre pitchers. Estas son las mayores diferencias (rWAR-fWAR): Cueto 2.3; Hamels 2.2; Lester -1.9; Roark 1.7; Price -1.6; Hughes -1.5; Kershaw 1.4. Es interesante observar que los rWAR "sobrevaloran" a pitchers como Cueto, Hamels, Roark y Kershaw y "subvaloran" a pitchers como Lester, Price y Hughes. Puede ser interesante tratar de explorar las razones de estas diferencias.
Si aceptamos que ninguna de las dos medidas es mejor que la otra, aunque muchos prefieren los fWAR, y promediamos los rWAR y los fWAR, estos son los 10 mejores peloteros: Kershaw 7.1; Trout 6.85; Alex Gordon 6.35; Donaldson 6.25; Félix Hernández 6.25; Stanton 6.1; Lucroy 5.9; Heyward 5.75; Brantley 5.7; Kluber 5.65. Posiblemente esta fórmula sea razonable mientras no se encuentra una mejor medida de la contribución de un pelotero al éxito de su equipo. En todo caso, Kershaw y Trout parecen estar en este momento en una categoria aparte entre los jugadores de grandes ligas.
Yo si creo que hay muchos problemas en la manera de medir la defensiva, sobre todo en el caso de los outfielders, sobre todo los de las esquinas. Se supone que los RF y LF son jugadores que tienen algo que no les permite jugar CF, y por lo tanto es curioso que haya algunos con tanta carreras salvadas como Alex Gordon o Jason Heyward, que tienen valores sobre cualquier CF. Una de las razones se debe a que la mayoría de los LF, en el caso de Gordon, son muy malos defensivamente y entonces los que son buenos tienden a sobresalir demasiado.
En el caso de los pitchers, yo si que no tengo problemas. Uno saca el WAR con las carreras permitidas ajustando con defensa y el otro con FIP. Cada uno esta midiendo cosas diferentes! Entonces no sé porque la gente quiere que tengan valores similares.
Creo que en buena medida la confusion se crea al utilizar tanto B-R como F-G el termino "WAR", cuando en realidad estan midiendo cosas diferentes o por lo menos algo diferentes.
A pesar de todo, ambos sistemas terminan identificando a los mismos peloteros como los mejores, sobre todo en lo que respecta a los jugadores de posicion. Tanto B-R como F-G estan de acuerdo (aunque no en el mismo orden) que los mejores jugadores de posicion son Donaldson, Trout, Stanton, Alex Gordon, Beltre, Heyward, Lucroy, Cano, Peralta y Brantley. F-G destaca tambien a Seager, McCutchen y Pence, pero B-R no les da la misma relevancia.
En los pitchers el acuerdo es menor o el desacuerdo es mayor, segun como se le mire. Coinciden en valorar a Kershaw, Felix Hernandez, Sale, Kluber y Scherzer, pero difieren en muchos otros nombres. Como bien apunta Gonz, estas diferencias se deben a que B-R se basa en el ERA y F-G en el FIP. Por eso, un pitcher como Cueto que es el No. 4 en ERA y el No. 28 en FIP recibe una valoracion tan diferente en ambos sistemas.
El acuerdo entre los dos sistemas parece dificil porque F-G es practicamente el propietario de estadisticas como UZR, FIP, etc., por lo que B-R se ve obligado a depender de Total Zone Runs, ERA, etc. Da la impresion de que F-G hace uso de estadisticas un poco mejores, pero eso es dificil de aceptar por B-R. Nos quedan entonces las opciones de combinar los resultados de ambos, preferir a uno u otro, ignorarlos a ambos y/o inventar nuestro propio sistema.
Dado que no tenemos una medida de consenso para estimar los WAR, me atreví a tratar de crear fórmulas muy sencillas para el cálculo aproximado de los WAR.
En el caso de los pitchers, supongamos que nos basamos exclusivamente en el FIP. Considerando que 7 y 2 son valores excelentes de WAR y FIP, respectivamente, podemos establecer para los pitchers una fórmula aproximada:
WAR = 9 – FIP
En el caso de los jugadores de posición, podríamos pensar en una combinación de OPS y UZR. Supongamos, para simplificar, que el OPS pesa 90 % y el UZR 10 %, sin discriminar por la posición. Suponiendo que 10 WAR, 1100 de OPS y 25 de UZR representan la excelencia, podríamos pensar en una fórmula para los jugadores de posición como:
WAR = (OPS/122) + (UZR/25)
Veamos como comparan estas fórmulas con los tres mejores resultados de 2013 (según F-G) en cada categoría:
Pitchers
Kershaw 6.6 (real)/6.6 (estimado)
Scherzer 6.4 (real)/6.3 (estimado)
Wainwright 6.3 (real)/6.45 (estimado)
Jugadores de posición
Trout 10.5 (real)/8.3 (estimado)
McCutchen 8.2 (real)/7.8 (estimado)
Donaldson 7.7 (real)/7.6 (estimado)
Aunque la muestra es muy pequeña, los resultados en relación con los pitchers son muy buenos, pero es necesario advertir que se trata de una comparación con los WAR según F-G. Si la comparación hubiese sido con los WAR según B-R el resultado no hubiese sido tan bueno, sobre todo en el caso de Kershaw, debido sobre todo a que B-R basa sus estimaciones en el ERA y en 2013 el ERA de Kershaw fue increíblemente bajo. Pero en el caso de los jugadores de posición, aunque hay bastante semejanza en los casos de McCutchen y Donaldson, la desviación en el caso de Trout es muy grande. Esta diferencia, sin embargo, se reduce en el caso de los WAR según B-R, donde Trout recibió 8.9 WAR, una cantidad más parecida a la estimada empleando la fórmula propuesta.
Veamos, para agregar un poco de información, los casos de los venezolanos Félix Hernández y Miguel Cabrera. Félix Hernández tuvo en 2013 5.9 WAR según F-G y Miguel Cabrera 7.5 WAR según B-R. Según las fórmulas aproximadas propuestas, Hernández hubiese tenido 6.4 WAR y Cabrera 8.1 WAR.
Estos resultados nos permiten establecer, de manera preliminar, que las fórmulas propuestas permiten estimar con menos de 10 % de error los WAR de los pitchers en comparación con los WAR de F-G y los WAR de los bateadores en comparación con los WAR de B-R, siempre que estemos hablando de jugadores con más de 150 IP o más de 450 PA en una temporada. Como se trata de una estadística acumulativa, si la estimación tiene lugar durante el transcurso de la temporada es necesario ajustar los resultados. Aunque por supuesto la validación de las formulas supone analizar una mayor cantidad de datos, las estimaciones resultantes de las fórmulas propuestas, dada la gran dificultad de estimar los WAR, lucen bastante razonables.
Sí leen la columna de Passan, verán que él mismo explica el por qué de la diferencia en el war para pitchers entre las dos versiones de WAR. En Fangraphs le dan más peso al FIP y no mucho peso a los innings lanzados, y en B-R le dan bastante peso a los innings e ignoran el FIP. El punto de Passan es que el fWAR hace algunas cosas mejor que el rWAR y viceversa, pero aún los dos en conjunto están mal.
Aquí está el fragmento que habla de los pitchers:
Johnny Cueto shows the disparity isn't just limited to hitters. The interpretation of pitchers differentiates fWAR and rWAR to perhaps a greater degree than the hitters, and Cueto is perhaps the best example this year.
FanGraphs uses Fielding Independent Pitching to calculate its pitching WAR. FIP takes the three outcomes that involve no fielders – strikeouts, walks and home runs – and judges a pitcher on them. Baseball-Reference works off the number of runs a pitcher allows. In most cases, a Baseball-Reference explainer says, they "will be very close and are strongly correlated, but there are a number of cases each year where there are large disparities between the two metrics."
Cueto is the 13th-best pitcher in baseball by FanGraphs' count, with 3.6 WAR. Baseball-Reference says he's the fourth-best, at 5.8 WAR, which dovetails more with standard thought. Hurting Cueto in fWAR is mostly his home run rate – .84 per nine innings – and the apparent disregard of its calculation for innings pitched. Despite throwing only two-thirds the innings of Cueto, Yu Darvish has more than half a win than Cueto, according to fWAR. Also ahead of him is …
8. Jose Quintana, whom rWAR actually rates behind three relief pitchers (Wade Davis, Dellin Betances and Jake McGee). FanGraphs has Quintana as the ninth-most-valuable pitcher this season, again mostly because of his home run rate, which may well be a fluke.
While he is pitching more down in the zone this year – about a quarter of Quintana's pitches have crossed the plate below the strike zone this year, compared to around one-fifth last year – his groundball rate has ticked up negligibly. It's not exactly the sort of profile that leads to a massive change in home runs hit. Sometimes it's best to chalk that up to luck, especially when his home run rate was more than double this season's in Quintana's first two years.
Certainly rWAR has its pitching kinks, too, as …
9. Madison Bumgarner finds himself with 3.2 wins to Jason Vargas' 3.6. The tale of the tape:
• Bumgarner has thrown 28 more innings
• Bumgarner has a much better strikeout rate (9.09 to 5.96)
• Bumgarner has a better ERA (3.02 to 3.14)
• Bumgarner has a slightly better walk rate (1.78 to 1.81)
• Vargas has a slightly better home run rate (.80 to .82)
• Bumgarner has a lower opponents batting average, on-base percentage and slugging percentageSo why is Vargas higher? Baseball-Reference park-adjusts its pitching WAR, and because AT&T Park is considered such a strong stadium for pitchers, Bumgarner is dinged there. Moreover, Bumgarner pitches in the National League, where fewer runs are scored, and so Vargas' combination of home ballpark (the neutral-rated Kauffman Stadium … which most in the game consider a distinct pitcher's park) and league (American) give him more value. FanGraphs has Bumgarner nearly a win ahead of Vargas, who owes much of his strong ERA this year to …
Vale destacar que Dave Cameron publicó un artículo en Fangraphs en respuesta a Passan, donde reconoce que aún cuando no está de acuerdo con todo lo que dijo Passan, sí admite que el WAR tiene sus deficiencias.
Yo creo que la conclusión que hay que sacar no es que el WAR no sirve, porque claro que te permite darte cuenta del valor que tienen muchos jugadores que no destacan via las estadísticas tradicionales (como bien apunta Rob Neyer en otro artículo en respuesta a Passan), pero que NUNCA debe usarse como la medida exacta de valor, aún si promedios las dos versiones de WAR. El margen de error del WAR es de más o menos 1 punto entero, y en algunos casos (donde el WR defensivo es sumamente alto) puede llegar hasta a dos.
Supongamos por un momento que Kershaw y Trout no existen, y al promediar los WARs como hizo alberto, vemos que los líderes en WAR son los siguientes:
Alex Gordon 6.35; Donaldson 6.25; Félix Hernández 6.25; Stanton 6.1; Lucroy 5.9; Heyward 5.75; Brantley 5.7; Kluber 5.65.
Alguien que ha empezado a seguir la estadística pero no está al tanto del trasfondo del asunto (un fan casual con alguna idea de sabermetrics), dirá que el más valioso sin duda alguna debe ser Gordon, cuando en realidad todos esos jugadores están dentro del rango del margen de error de WAR. En ese caso, los mismos articulistas de Fangraphs dicen que se debe usar otro criterio para comparar (estadísticas ofensivas en el caso de bateadores).
El caso de Lucroy es bastante particular porque aún no se sabe qué tanto efecto tenga el "pitch framing" en el valor de un catcher (el WAR de momento lo ignora).
Ciertamente, uno de los preceptos de la sabermetría (como le llamábamos antes), es que ninguna estadística sola es perfecta ni suficiente, pero sirven como bases para seguir buscando mejores métricas
El WAR tiene sus deficiencias, pero quizás el valor más grande que tenga es la sencillez de su lectura -- aunque, como bien se ha comentado por aquí, en la medida en la que uno indaga y cuestiona, encontrará fallas o al menos discordancias
Siempre habrá un factor subjetivo en términos del peso que cada investigador le asigne a los diferente elementos que componen el juego -- yo puedo pensar que el bateo es más importante (y dentro del bateo, el OBP), mientras otros pueden darle más valor a la defensiva, o considerar ambas facetas como igual de importantes
El éxito de una estadística está entonces, en mi opinión al menos, en su capacidad de tener fácil lectura (que la pueda hacer popular y mainstream) y en su flexibilidad para ir adaptándose a nuevos conceptos y nuevas tecnologías (por ejemplo, las cámaras y computadoras para medir alcance de fildeo, o locación de lanzamientos)
En todo caso, debemos dar por seguro (o casi) que cada equipo cuenta con sus propias mediciones ad-hoc, que probablemente tengan poca relación con WAR
Es un proceso de permanente crecimiento y adaptación...
[firmafacebook]rorrollamozas[/firmafacebook] [firmatwitter]yosoyrorro[/firmatwitter]
Siempre me ha lucido que las carreras prevenidas a la defensiva en las distintas versiones de WAR estan algo sobrevaluadas y por eso tiendo a deflactar el valor total de WAR de jugadores con inusitadas "extraordinarias" temporadas defensivas como la de Peralta o la de Heyward este año, a pesar de ser ellos buenos jugadores defensivos.
Lei hace poco un buen articulo sobre lo que seria el punto ciego de las mediciones defensivas: distinguir que realmente le da a un jugador mayor "talento defensivo" sobre otros jugadores para realizar mayor cantidad de outs entre posicionamiento y alcanze, y tomando con cuidado que el posicionamiento puede ser parte de una estrategia colectiva desde la cueva dada por algun coach por lo cual el sistema termina premiando al jugador por seguir instrucciones de la cueva.
En especial el caso de Peralta me llama la atencion porque si bien ni UZR ni Total Zone lo identificaron como un mal IF tampoco ninguno de ellos lo identifico como la maravilla fildeadora que ha resultado ser esta temporada.
En todo caso creo que el problema no es si UZR, Plus Minus o Total Zone identifican buenas actuaciones defensivas al unisono si no identificar si puede haber algun "ruido" no captado por estos sistemas que terminan inflando la actuacion defensiva del jugador.
- 27 Foros
- 5,939 Temas
- 53.1 K Respuestas
- 3 En línea
- 562 Miembros