현재 스탯티즈의 기록을 정리하는 작업을 진행하고 있습니다.
방향에 따라 각종 설계를 해야되고, 이후 그것을 바꾸는 작업은 더 큰 작업이 될 수 있기에 미리 의견들을 수렴해보고자 합니다.
FreeRedbird, 홈런강탈님 블로그와 sayuksin, nineguys 님이 기존에 남긴 의견들을 많이 참고 했습니다.
첫째, wOBA/FIP 중심의 기록 정리
지금의 기록실에는 많은 기록들이 포함되어 있으나 그 중에는 실질적으로 의미가 중첩되는 경우가 많습니다.
같은 의미라면 굳이 나열할 필요 없다고 판단되며, 확실한 방향을 가지고 기록을 정리하고자 합니다.
그 중심으로 타자는 wOBA, 투수는 FIP가 될 것입니다. 이를 기반으로 득점 기여/방어를 나타낼 생각입니다.
RC, RC/27, RCAA, XR, BR, MLV, PMLV, VORP, OPS+ 등은 없애고
wOBA 기반의 wRC, wRC+, RAA 등으로 대체할 생각입니다.
계산 과정만 다를 뿐 충분히 기존 의미를 대체할 수 있다고 판단이 되기 때문입니다.
또한 지나치게 복잡한 과정을 거치는 EqA 등도 없앨 생각입니다.
이 역시 wOBA가 충분히 그 의미를 대체할 수 있기 때문입니다.
투수 부분도 FIP를 중심으로 Run Saved를 표시하려고 합니다.
FIP에 현재 3.20으로 고정 상수를 사용하고 있는데 연도별로 조정하는 작업을 거치려고 합니다.
둘째, WS -> WAR
선수의 승리 기여 정도를 파악하기 위해 윈 쉐어를 사용하고 있는데, 과정이 복잡할 뿐더러 직관적이지 않고
그 과정에 비해 정확도 역시 의문입니다. 팬 그래프 등에서 사용하는 WAR 방식으로 하려고 합니다.
타격 / 수비 / 투구로 나누어서 보면 다음과 같은 요소들을 넣으려고 합니다.
[ 타격 : 5개의 합]
1) RAA : wOBA 기반
2) 주루 기여 : 추가 진루 비율 등을 리그 평균과 비교해 득점 기여 추정
- 예 : 김주찬의 경우 161번의 기회에 77추가 진루, 리그 평균 32.3%에 대입하면 52추가 진루 // 리그 평균보다 25추가 진루
- 추가 진루의 가치 * 리그 평균 대비 추가 진루로 주루 기여 계산
- 추가 진루를 내야 땅볼, 외야 플라이, 안타 등으로 세분화하여 계산하는 것도 고려 중
3) 도루기여 : 도루는 타격에 비해 어느 상황에서 뛰었는지가 더 중요하다고 보기에 Run Expectancy 기반으로 측정
- 예1 : 1사 2루 도루 성공시 0.152(0.573 -> 0.725)점 기여, 실패시 -0.456(0.573->0.117)점 기여
- 예2 : 2사 2루 도루 성공시 0.093(0.251->0.344)점 기여, 실패시 -0.251(0.251->0)점 기여
- 이중도루시 2루 주자는 (1,2루에서 1,3루까지의 REa), 1루 주자는 (1,3루에서 2,3루 까지의 REa)
4) 팀 배팅 기여 : 주루 기여와 비슷한 방식으로 계산
5) Replacement : 팬그래프와 마찬가지로 600타수 당 20점 정도로 계산
* Play by Play 데이터가 없는 경우
- ROE, 주루 기여, 도루 기여, 팀 배팅 기여를 파악할 수 없음
- ROE, 주루 기여, 도루 기여 등은 Speed Score를 이용하여 2007년 이후 데이터를 참고하여 관련성을 파악하여 추정하는 방법 고려
- 팀 배팅 기여는 0으로 설정
[ 수비 ]
수비는 UZR, +/- 등을 고려할 수 없는 관계로 Fielding Run 기반으로 FRAA, FRAR 등을 계산
* Play by Play가 없는 경우 FRAA를 0으로 놓고 주포지션과 타석을 고려하여 FRAR를 추정
[ 투구 ]
FIP를 바탕으로 하여 RAR -> WAR 계산
구원 투수의 경우 Effective LI = (1 + gmLI) / 2로 조정
* Play by Play가 없는 경우 Effective LI를 구원승/세이브/홀드 등을 바탕으로 추정
WAR = (타격+수비+투구) / (승리당 득점)
승리당 득점은 10으로 고정하지 않고 (리그 평균 득점+2)*1.5로 설정
셋째, 파크 팩터 대폭 수정
파크 팩터는 홈런강탈님께서 남겨준 글을 반영하여 BRF->IPF/APF 과정을 거칠 예정입니다.
안타, 2루타, 3루타, 홈런, 실책 등은 BIP를 바탕으로,
4사구는 TBF, 득점은 (타수-안타)를 바탕으로 구할 예정입니다.
BRF는
(홈에서 홈런+상대홈런)/(홈에서 BIP+상대BIP)
------------------------------------------
(원정에서 홈런+상대홈런)/(원정에서 BIP+상대BIP)
가 기본이 되나 연감에서(프로야구 연감에는 원년에서 87년부터(90년 제외) 구장별 성적이 나타나 있습니다.)
투수 부분의 경우 2루타, 3루타가 없기 때문에 피2루타, 피3루타를 파악할 수 없기에
2루타/3루타의 BRF는
(홈에서 2루타)/(홈에서 BIP)
-------------------------
(원정에서 2루타)/(원정에서 BIP)
같이 피2루타/피3루타가 제외된 채로 계산을 할 생각입니다.
특정 연도의 파크 팩터는 5년 정도를 포함하고,
파크 팩터를 구할 수 없는 86년 이전/90년의 경우 비슷한 구장으로 추정할지, 중립으로 놓을지 고민 중입니다.
이 파크팩터는 조정 wOBA와 조정 FIP를 구할 때 사용될 것입니다. 때문에 RAR/WAR도 자연스럽게 반영되겠지요.
기본적으로 타석과 이닝은 변하지 않는 다고 가정하고 각 요소들에 파크팩터를 대입해서 구할 생각입니다.
다만 Play by Play가 없는 경우 실책출루와 볼넷의 경우 연감의 제약으로 인해 전체 실책과 4사구 팩터를 그대로 쓰면 어떨까 생각하고 있습니다.
==========================================================//
이상이 기록 변경 방향입니다. 모든 걸 다 반영되지 못할 수도 있지만, 의견을 주시면 참고하도록 하겠습니다.
감사합니다.
앗. 제 블로그가 언급된것 만으로도 너무 기쁘네요! WOBA 중심으로 기록실이 바뀌는 군요. 계산하기 편리하고 유용하다는 면에서 요즘 빠져있는데 메이저리그의 실제 상황을 가지고 계산된만큼 회귀공식을 정해서 남겨두는것도 나쁠것 같지는 않은데요. 기록 배치도 중요하고 저야 아는게 너무 없어서 의견을 말하기 곤란하지만^^
파크팩터 계산할때 jim Furtado식으로 해도 두산과 다른 팀의 편차가 커질 가능성이 크기때문에 저는 추가로 BRF를 BHF에 조정해서 되풀이하는 과정을 해줬었는데요. 그렇게 하지 않으면 전에 하던대로 09년 이전 LGvs두산의 경기를 원정경기에 포함시키는게 나은 것 같아요. 그렇지 않으면 두팀을 아예 따로 계산하는 것과 비교해도 격차가 더 나더라구요.
글구 86년 이전기록은 저는 중립구장으로 구장효과를 적용하지 않아도 괜찮지 않을까 생각하는데요. 파크팩터로 인한 보정이 다른 연도를 비교로 의미를 갖기 보다는 당해년도 구장과의 차이로 인해 발생하는 것이기 때문에 구장구성이 달라진 86년이전을 다른 구장에 대입해서 볼 필요는 덜할것 같다는 생각이 드네요. (아는게 적어서 조심스러움^^)
WAR을 구할때 저도 FIP로 구하는게 가장 좋다는 생각이 드는데 이닝이 적은 불펜투수들은 ERA와 격차가 크기때문에 당해년도 비교하면 약간 실제와 다르다는 느낌을 받을지도 모르겠습니다. 올해 불펜 WAR이 FIP로 구할 경우 임태훈, 손영민, 토마스 고창성 등의 순인데 임태훈이 약3.3WAR 유동훈이 1.9WAR 정도인데요. 전력을 예상하거나 팀으로 묶을 때와 달리 차이가 있어서 기록배치할때 ERA와 비교할 수 있으면 더 좋지않을까 생각해봤어요.
ERA는 해당 투수의 기록이라기보다는 "해당 투수가 마운드에 있을 때 소속팀의 자책점 방어 수준"이라고 보는 게 맞겠지요. 저는 ERA가 뛰어난 선수가 WAR 기준으로 그저 그런 성적을 내는 것에 대해 별 거부감이 없습니다만... 이상하게 느끼시는 분들도 많이 계실 것 같습니다.
아예 컬럼을 하나 추가해서 FIP-WAR와 ERA-WAR를 각각 계산해서 보여 주는 것도 괜찮을 듯 합니다. ERA에 익숙하신 분들에게는 거부감도 줄이고 스탯의 이해에 좀 더 도움이 되지 않을까요??
1.타자와 투수의 배분
윈셰어에선, 타자(공격+수비)와 투수간에 약 2:1 정도로 공헌도가 배분되는데, 이것은 타자를 너무 과대평가 한것 같습니다. 제 생각엔, 25인을 기준으로 투수가 11명 배정되는 경우가 많기 때문에, 타자(공격+수비)56%+투수44% 로 배정하는 것이 어떨까 싶습니다. 팬그래프던가... 어디선가 본 기억으론 메이저의 경우 선수 연봉으로 산정해도 타자56%,투수44% 정도로 나뉜다고 하더군요.
즉, 리그 전체의 WAR는 타자 56%,투수44%로 맞춰야 하지 싶습니다.
2.FIP와 수비력
80년대에는 현재보다 홈런,볼넷,삼진이 모두 작았던것 같습니다. 인플레이된 타구가 많았고, 당시 투수들의 경우 현재보다 맞춰잡는데 능한 선수가 많았을 듯 합니다. FIP%로 정렬해 보면, 80년대 팀들의 순위가 높은경우가 많네요.
팀의 방어력은 투수력+수비력 일텐데요. 팀FIP 와 팀수비력을 합치면, 팀실점이 되겠죠. FR로 구한 팀 수비력점수와 FIP로 구한 투수력점수를 합산한 것이 팀실점과 같게 맞춰줘야 될 것 같습니다. 가령, 84OB는 경기당 1.7정도의 ERA와 FIP의 차이를 보입니다. 투수 빼고, 야수들이 평균적으로 경기당 0.2점 정도의 공헌을 한 셈이죠. 당시 수비기록이 없을테니, OB 타자들의 FR에 1.7*100=170점을 나눠줘야 할 것 같습니다.
선동열의 경우, 외야타구도 잘 나오지 않았었는데, 인플레이 상황을 무시하는 FIP로 평가할 경우 손해 많이 보겠네요.
제 생각엔, 인플레이 상황을 완전히 배제하는 것 보다는, 팀 BABIP를 기준으로 그보다 적게 안타를 허용했다면, 이것을 투수에게 공헌도를 전가하는 것은 어떨까 싶습니다. ERA보다 FIP를 택하신 이유가 수비력의 영향이 클텐데요, 같은 수비력을 뒤에두고 투구를 했으면서도 더 낮은 BABIP를 보인 투수들이 있으니까요.
3.파크팩터
기준을 공격이닝,수비이닝으로 하는 것 어떨까 싶네요.
가령, BIP를 기준으로 할 시, 타자친화적 구장은 BIP가 늘어나게 되어 좀 더 중립으로 치우치는 결과를 얻을 것 같습니다. 모든팀의 공격이닝,투구이닝은 별 차이가 없지만, BIP는 경기장에 따라 차이가 발생할 수 있죠. 대전에서 30홈런을 친 선수가 잠실로 올 경우 해당 선수는 공격이닝은 거의 비슷할 테지만, BIP상황 자체도 줄어들겠죠.
말씀하신, 요소들별 기준을 달리하는 것은 경기장의 특성 파악에 좀 유리할 수 있으나, 선수들의 능력(경기장을 바꿨을때의 예상치..?)을 파악하는 데에는 공격이닝,수비이닝으로 일괄적으로 기준을 정하는 것이, 좀 더 간편하고, 이롭지 않을까 싶습니다.
4.주루플레이
MLB기대득점으로 가치를 평가하시는 것 같은데, KBO 기대득점으로 적용할 수는 없을까요? 07~09년 데이터로, 상황별 기대득점 구할 수 없을까요?
mlbbada에 쏘왓이라는 유저는 sports2i에 문의해서 KBO 기대득점을 얻었다고 하더군요.
MLB와 KBO의 홈런,2루타 빈도와 안타시 추가진루%를 보니, KBO에선 홈런-2루타가 적고, 단타-2루타시 추가진루율이 더 높습니다. 1루주자의 경우, KBO에선 MLB보다 홈런-2루타로 직접적으로 들어오는 경우가 적고, 2루주자일 경우는 반대로, 단타시 들어오는 경우가 높습니다. KBO에선 1루주자,2루주자의 가치 차이가 MLB보다 클 것 같습니다. MLB보다, 작전-진루타 를 많이 노리는 것도, 이런 이유가 좀 영향을 미치는 것 같구요.
P.S. 언제나 데이터 잘 보고 있습니다. 너무 감사합니다.
1. 기존의 윈쉐어 방식은 버릴 생각입니다. 따라서 배분 문제는 고려하지 않아도 될 것 같습니다.
RAR->WAR 방식을 쓰기 때문에, RAR에서 어떤 것들을 사용할지가 이슈가 되겠죠.
2. 비슷한 고민을 한적이 있습니다. 80년대는 비자책점 비율이 굉장히 높죠. 현재 FIP를 고정 상수로 쓰고 있는데, 연도별로 맞출 생각입니다.
윗 댓글에 언급한 것처럼 FIP로부터 나온 WAR와 ERA로 부터 나온 WAR의 평균을 사용해야 될 것 같습니다.
BABIP에 따라 적용하는 것은 좀 더 연구가 필요할 것 같습니다.
3. 연감에서 타자쪽의 이닝을 확인할 방법이 없습니다. 타수 등으로 추정할 수 있긴 한데, 개인적으로 BIP를 쓰는 것은 문제가 없다고 봅니다.
단, 여기서 BIP는 삼진,볼넷만 제외한 것이 되어야 겠죠.
파크팩터 적용할 때 타자의 BIP도 삼진/볼넷을 통해 조정한 뒤 안타, 홈런 등을 추정하면 되지 않을까 싶네요.
4. 기대득점은 구할 계획을 가지고 있습니다. 현재는 MLB 공식을 그대로 가져오고 있지만, 차근차근 KBO에 맞게 변형해가는 것이 궁극적인 목표가 되겠죠.
ps. 좋은 의견 감사합니다.
리그 WAR=타자WAR+투수WAR 이렇게 될텐데, 타자WAR이 56%,투수WAR이 44%..... 이런식으로 배분되어야 하지 않을까 하는 거죠.
WAR에서의 기준이 이미, 그정도로 배분이 되도록 맞춰져 있나요?... 그럴 것 같기도 하고,..
타자와 투수의 가치를 직접적으로 비교하기 어려운 만큼, 전체적인 틀에서 비중을 잘 맞춰줘야 할 것 같습니다.
baseballprospectus의 결과를 보면, 예전엔 투수를 상당히 낮게 보다가 최근 좀 올려주는 듯 하고, BABIP 낮은 선수들을 하향 평가하다가 조금씩 높은 평가를 하는 식으로 바뀌더군요.
FIP와 ERA의 평균을 이용한다면, BABIP에서 파생되는 효과중 반을 반영하게 될 듯 한데요. 그렇다면, 반영되지 않은 반은 수비수들의 FR에 +- 해줘야 팀실점의 공헌도가 모두 평가가 될 것 같습니다.
팀배팅과 주루플레이.
팀배팅의 경우, 빠른 주자를 두고 타격하는 중심타자가 이득을 보고, 느린타자를 주자로 두고 타격하는 6~7번이 손해 볼 여지가 있는 것 같습니다. 느린주자의 경우 후속타자의 병살을 늘릴수도 있고, 1루수가 정위치에서 수비할 경우 타자의 안타확률도 좀 낮아질 수도 있고..
팀배팅과 주루플레이 간에, 배분을 해야 할 텐데요.
가령, 이대형이 리그평균보다 10% 더 진루한다고 할때, 주루플레이에서 이대형에게 +10%, 팀배팅에서 후속타자에게 +10% 하면 안되고, 8:2or5:5,+12:-2.... 이런식으로 배분을 해야겠죠. 따로따로 계산하면, 더블카운트가 될 테구요.
이대형,페타지니,최동수,이진영을 보면, 이대형은 페타지니의 팀배팅 점수를 높여줄테고, 페타지니는 최동수의 팀배팅 점수를 깎아 먹겠죠. 운빨이 포함되었겠지만, 페타지니,최동수를 앞에두고 타격을 많이 한 이진영은 병살타가 유독 많았고.
팀배팅에선, 주자 1루시 플라이아웃을 포함해서 계산해야 할 듯 하고, 주루플레이에선 주자 1루시 플라이 아웃을 제외해야 할 듯 합니다.
예전에, 본 기억으론 잠실에선 추가진루에 약간 유리한 것 같은데, 이에 대한 파크팩터를 적용해도 될 듯 하구요.
추가진루의 가치에 있어선, 아웃시 1루->2루의 경우.. 병살상황에서 1루에서 2루진루할 경우의 가치가 다른때보다 훨씬 클 것 같습니다. 리그전체적인 병살상황,병살%,병살 가치를 따져서 아웃시 1루에서 2루추가진루하는 항목을 평가할때 약간의 가산점을 주는 것도 필요할 듯 합니다. 2아웃 주자없는 상황과 1아웃 주자2루 상황은 mlb경우 0.725-0.117=0.608, 3아웃과 2아웃 주자 2루상황은 0.344-0=0.344 차이가 있네요.
정확히 하려면, 병살상황에서 땅볼타구일때를 고려해야 겠지만, 좀 복잡해질 것 같고, 주자 1루-아웃일경우에 평균적인 가치를 합산시켜주어도 되지 싶네요.
팀배팅,주루플레이는 서로 영향을 미치는 것이라 평가하기가 참 어려운 것 같습니다.
저도 팀배팅, 주루플레이를 생각하면서 배분에 많은 고민을 했었지만 쉽지 않았습니다.
빠른 주자를 두고 타격하므로 중심타자들이 이점을 보겠지요. 근데, 이런 생각도 해봤습니다.
강타자들이 나오면 외야수비들이 뒤로 가지요. 때문에 다른 타자들에 비해 추가 진루를 더 유도할 수도 있습니다.
또한, 이대호 같은 타자는 2루타가 될 수 있는 타구를 치고도 1루 밖에 못가는 경우가 있죠. 이 경우 1, 2루 주자는 추가 진루를 가볍게 할 수 있습니다.
이런 것들은 팀 배팅을 통해 보상 받을 수도 있다는 생각이 듭니다. 물론 전체적으로는 주자쪽의 비중이 더 크겠지요.
세밀한 상황을 다 고려해야 겠지만, 계산상의 편의 문제로 몇가지 가정을 해야 될 것 같기도 합니다.
현재 추가 진루 가중치를 어떻게 줘야 하나 고민을 하고 있습니다. 잠실 파크 팩터도 생각하고 있는데 차이가 크지 않으면 그냥 적용하지 않을 생각입니다.
주자/팀배팅은 기준이 다르고 평균 대비로 하기 때문에 어쩔 수 없이 몇몇 더블 카운트(하나의 상황을 두고 주자와 타자에게 따로 분배되는)가 되는 것을 감수할 수 밖에 없을 것 같습니다.
워낙 어려운 부분이라서 몇 가지 가정과 나름의 기준을 가지고 일단 한번 정리를 해보고, 차츰 수정을 해 나가야 될 것 같네요.
타격,수비,투구 모두 후보수준을 기준으로 하니, 주루플레이도 후보수준을 기준으로 해야 되지 않나 싶기도 하네요.
근데, 포지션 고려는 않하나요?
만일 포지션을 고려한다면, 타격+주루+팀배팅+수비 합산해서 포지션별로 비슷하게(지명타자는 약간 낮아야 겠죠) 보정해야 하지 싶습니다.
후보수준을 600타석당 20점정도로 하신다고 하셨는데, 예전에 KBO와 MLB의 주전타자들(팀당 타석순위로 9위까지)과 후보(10위부터~)와의 차이를 비교해 보니, KBO의 경우 선수층이 얇아서 그런지 차이가 더 컸습니다. 기준 정하기가 어려운데..., 이렇게, 타석순위로 팀당 9위까지의 woba와 나머지 후보선수들의 woba 차이를 계산해서 기준을 정하는 것은 어떨까 싶습니다. 20점 보다는 25점 정도가 더 KBO에 가깝지 않을까 합니다.
투수들의 경우는, 타자의 타력+주루+수비+팀배팅 합친것과 비교하여 56%:44%의 비율로 후보수준을 정할 수 있겠죠.
역시나 비슷한 고민을 하고 계시네요. 주루나 팀배팅도 후보 수준을 고려해야 된다고 생각했습니다만,
주루나 팀배팅은 다른 분야에 비해 평균과 후보 수준과의 차이가 크지 않을 것 같다는 생각도 들고,
넓은 의미에서 타격 생산에 포함될 수 있기 때문에, 타격의 조정으로 해당 부분이 채워질 것 같기도 합니다.
즉, 600타석당 20점이라는 것이 (타격+주루+팀배팅)이 포함된 차이로 볼 수 있다는 뜻입니다.
대체 후보 선수 선정도 지금은 그대로 가져다 쓰지만, 이후에는 KBO 데이터를 가지고 분석한 뒤 적용을 해야 겠죠.
포지션별 조정도 팬 그래프 방식대로 할 생각입니다.
지금은 무작정 주 포지션을 기준으로 했는데, 변경된다면 포지션별 수비이닝을 참고해서 할 생각입니다.














게시판