Зачем нужен рейтинг в играх и как его можно рассчитать

В соревновательных играх нас обычно интересует не только результат уже завершившегося конкретного матча и рейтинговая таблица турнира, но и прогноз будущих событий на основе оценки «какой игрок сильнее». Для этого используются системы рейтингов, рассчитываемых разными способами.
Основной критерий качества рейтинга – это точность предсказания результата. То есть в идеале, зная рейтинг каждого игрока, мы должны иметь возможность с высокой точностью предсказать результат матча между любой парой участников. Рейтинг рассматривается как количество баллов, набранных каждым игроком по результатам проведенных игр.
Возьмем пару игроков – А и Б, играющих в некую соревновательную игру с тремя возможными исходами: либо победит игрок А, либо игрок Б, либо будет ничья.
Рассмотрим самый простой способ начисления очков (очковая система начисления рейтинга): в случае победы игрок получает 1 очко, в случае проигрыша теряет 1 очко, при ничьей рейтинг не изменяется. Для игроков приблизительно одинаковой силы это более-менее сработает, но что, если один из игроков заведомо сильнее или сыграл больше игр?
Для удобства возьмем некий начальный рейтинг, с которым новый игрок вступает в игру, равным 0 очков, и не будем рассматривать закрытый турнир, в котором все участники начинали бы игру одновременно с одинаковым количеством очков (в соответствии с «принципом спортивной справедливости» все участники равны между собой). Просто представим, что мы на каком-то сайте играем в шахматы или в балду.
Пусть игрок А – опытный, сыграл 100 игр, из которых в 70 победил, в 15 сыграл вничью, в 15 проиграл.
Его рейтинг составит РА=0+70-15 = 55 очков.
И тут врывается игрок Б с начальным рейтингом РБ=0, который сразу его обыгрывает.
По результатам матча РА=54, РБ=1. Если провести серию из 10 матчей между этими игроками, из которых игрок Б выиграет 5, проиграет 2 и 3 проведет вничью, получим РА=55-5+2 = 52, РБ=0+5-2=3. Разрыв в рейтинге сократился незначительно (всего на 11%), хотя для нас очевидно, что игрок Б сильнее игрока А.
Чтобы предотвратить уход рейтинга в отрицательные значения при серии проигрышей, можно давать за победу 1 очко, за ничью по 0,5 очка каждому игроку, при проигрыше не изменять рейтинг. В таком случае начальные значения РА=0+70+15*0.5=77.5, РБ=0. После серии игр РА=77.5+2+3*0.5= 81, РБ=0+5+3*0.5=9.5 очков. Разрыв также сократился незначительно при очевидном превосходстве игрока Б.
Решением этой проблемы является введение зависимости количества начисляемых очков от текущего рейтинга противника: чем сильнее противник, тем больше очков должно быть начислено за победу над ним, а также тем меньше очков должно быть потеряно при проигрыше ему. То есть для оценки значимости победы нужно знать, над кем она была одержана.
В 1960 году Арпад Эло предложил шахматной федерации США новую систему расчета рейтинга. Ее отличие от простой очковой системы заключается в том, что для расчета рейтинга Эло (Elo) используется не только фактическое, но и «ожидаемое» количество очков, которое каждый игрок должен набрать в случае своей победы с учетом своего текущего рейтинга.
Ожидаемое количество очков, полученное игроком А в случае победы над игроком Б зависит от разницы в рейтинге игрока Б и игрока А, а итоговый рейтинг составляется путем сложения текущего рейтинга с разницей между количеством фактически набранных и ожидаемых очков, умноженной на коэффициент (множитель), показывающий уровень мастерства игрока в соответствии с его рейтингом и иными условиями (см. на картинке).
Начальным значением рейтинга ЭЛО для первой игры принято 1200, поэтому пусть перед первой игрой РА=2000 (уровень КМС по шахматам), РБ=1200.
По страшным формулам с картинки, а точнее с помощью онлайн-калькулятора http://chess.sainfo.ru/rating.php, рассчитаем рейтинги наших игроков А и Б после первого матча и после серии из 10 матчей с теми же результатами, что и в прошлом расчете. При этом множителем для игрока Б будет 20 (тк его рейтинг ниже 2400), для игрока Б будет 40 (тк он только начал играть).
Получим после первой игры РА=1982, РБ=1237, после серии из 10 игр РА=1889, РБ=1430. Разрыв, первоначально составлявший 800 очков, сократился до 459 (на 43%).
В расчетной таблице мы также видим, что за победу над более сильным игроком начисляется больше очков, чем за победу над более слабым. При этом при ничьей более слабому игроку очки начисляются, а у более сильного отнимаются.
Можно сформулировать это таким образом: за каждое поражение участник расплачивается в соответствии со своим рейтингом, а за свои победы получает в соответствии с рейтингом соперника. Ничьи рассматриваются как половина победы и половина поражения. Таким образом, в случае ничьей участники как бы обмениваются рейтингами и ничья становится невыгодной для более сильного соперника.
Рассмотрим ситуацию, когда встречаются два соперника с равным рейтингом, например, 1700 и множителем 20. По системе рейтинга ЭЛО любой из победителей получит 10 очков, при проигрыше – столько же потеряет, в случае ничьей рейтинги не изменятся.
Но что, если игрок А играет впервые после длительного перерыва, а игрок Б тренируется постоянно? В этом случае рейтинг игрока А не отражает достоверно уровень его мастерства.
Для решения этой проблемы существует система подсчета рейтинга Глико (Gliko), предложенная в 1995 году Марком Е. Гликманом.
Гликман предположил, что:
1) рейтинг первого игрока должен увеличиться существенно (больше 10), поскольку его рейтинг не совсем реален, и то, что он побил игрока с практически точным рейтингом в 1700 очевидно наводит на мысль, что его сила заведомо превышает 1700, и
2) рейтинг второго игрока должен немного уменьшиться (менее 10 очков), поскольку про его рейтинг и так уже известно, что а) он находится в районе 1700, и б) он проиграл игроку, чей рейтинг не заслуживает доверия, и потому о его собственной игровой силе могут быть сделаны лишь небольшие догадки.
Поэтому он, дорабатывая систему ЭЛО, ввел понятие «рейтинговое отклонение» (Rating Deviation, RD), показывающее уровень неопределенности или недостоверности рейтинга. При этом игровой рейтинг R изменяется только по результатам игры, а рейтинговое отклонение изменяется как по результатам сыгранных матчей (уменьшается с каждой игрой, так как мы точнее узнаем силу игрока), так и в зависимости от времени, прошедшего с момента матча (увеличивается, так как информация о силе игрока теряет достоверность).
Поскольку игрок в системе Глико имеет и рейтинг R, и RD, то его сила может быть описана не конкретным числом, а интервалом. Для 95% доверительного интервала наименьшим значением является R-2RD, а наибольшим – R+2RD. Так, например, если рейтинг игрока 1850 и RD = 50, то интервал получится от 1750 до 1950. Тогда мы можем сказать, что мы на 95% уверены, что реальная сила игрока лежит находится между 1750 и 1950. Если у игрока низкий RD, то интервал будет уже, и мы будем на 95% уверены в реальной силе игрока в меньшем интервале значений.
Во второй версии этой системы рейтингов, Глико-2 (Gliko-2) введен еще один параметр – коэффициент изменчивости. Он показывает, насколько точно рейтинг позволил предсказать исход матча. Если игрок с более низким рейтингом проигрывает игроку с более высоким, коэффициент изменчивости снижается, так как такой исход был прогнозируемым. Если наоборот, то коэффициент повышается, так результат игры не соответствует прогнозу по рейтингам игроков.
Система рейтинга Эло достаточно проста для расчетов и применяется Федерацией шахмат США и Международной федерацией шахмат ФИДЕ. Она также используется для оценки силы игроков другими федерациями и сайтами, причем, не обязательно шахматными, применяясь также в шашках, го, сёги и других играх с противоборством двух противников.
Сайт Chess.com использует более математически сложный рейтинг Глико, lichess.org – Глико-2.
Онлайн-игры также используют рейтинговые системы для расчета рейтинга. Dota 2 раньше использовала Эло, а с апреля 2023 года перешла на Глико-2. Она же используется в Counter Strike: Global Offensive.
Как бы ни были точны и достоверны системы расчета рейтингов, они не могут гарантировать результат матча, так как кроме непосредственно мастерства игрока на результат игры влияют различные параметры, такие как состояние здоровья, частота тренировок, стресс и тд. Кроме того, рейтинги, игроков, рассчитанные в разных организациях даже одним и тем же методом не могут быть сопоставлены между собой, так как зависят от рейтингов противников в проведенных матчах.
Среди шахматистов регулярно подвергается критике погоня за рейтингом в ущерб красоте игры, а также изменение персонального рейтинга при участии в командных турнирах, в которых наиболее выгодные для команды действия могут привести к снижению личного рейтинга игрока, в результате чего ему приходится жертвовать либо личным результатом, либо командным.
Арпад Эло призывал не придавать созданной им системе универсального значения. «Часто люди, не слишком хорошо знакомые с природой и ограничениями статистических методов, ждут от рейтингов слишком многого. Рейтинги обеспечивают лишь сравнение успехов, не больше и не меньше… Определение рейтинга каждого отдельного шахматиста можно сравнить с определением положения покачивающегося на волнах поплавка, привязанного к удочке леской, колышущейся на ветру».
https://rusgolib.gofederation.ru/Rejjting/Sistema/Gliko.html