Дегрустиваторы [RSS-подписка
]
[Смотреть все]

Про оценки
Полный список статей
22.06.2013

Открывая цикл «Про»-яснительных материалов, коснёмся в первую очередь вопросов выставления оценочных баллов видеоиграм и прочим творческим субстанциям. И хотя об этом и так часто пылко пишут разные солидные люди с богатым многолетним игровым и прочим опытом, странно, что самый важный момент при этом упускается из виду.

А момент этот очевиден. Он заключается в том, что у каждого человека своя собственная интерпретационная оценка всего происходящего и личная шкала распределения баллов для чего угодно на свете. Даже если его заставить ставить баллы в соответствии с какими-то нормированными категориями типа «плохо»–«хорошо»–«отлично», у него всё равно будут собственные представления о том, что такое «хорошо» и что такое «плохо».

Во всём этом «зоопарке» личных оценок (от самой минимальной до самой максимальной), представленном отзывами широкой аудитории, допустим, на одну и ту же игру, нет ничего «криминального». Все они имеют право на существование. Но ровно до тех пор, пока их все не пытаются «причесать под одну гребёнку» статистическими методами.

Что даст, к примеру, использование на «зоопарке» оценок нормального вероятностного распределения? Всего лишь цифру, которую в качестве оценки люди выбирают чаще всего. Эта цифра никак не соотносится с объективной или «правильной» оценкой конкретной игры. Хотя при 10-балльной шкале (не говоря уже про 5-балльную) у двух этих цифр не так много шансов не совпасть.

Что даст, в свою очередь, среднее арифметическое всех оценок? Рассмотрим на примерах.

Пример 1:
Есть два независимых оценщика. Для одного набор критериев и/или ощущений от конкретной игры соответствует в его представлении цифре 7, для другого точно такой же, предположим, набор критериев и/или ощущений от той же самой игры соответствует уже в его представлении цифре 9. Кажется, стоит вычислить среднее арифметическое, число 8, и вот она истина, ан нет. Первый оценщик скажет, что оценка завышена, второй – что занижена.

Пример 2:
Есть четыре независимых оценщика температуры в одной и той же комнате. У каждого своя шкала измерения температуры. Первый намерял 20 град. по Цельсию, второй 25 град. по Реомюру, третий 68 град. по Фаренгейту, четвёртый 293,15 град. по Кельвину. Чтобы «выяснить истину», они вычислили усреднённое значение комнатной температуры, которое оказалось равно 101,5 градуса вне всех шкал, то есть получили некое совершенно никчёмное число.



Забавные глюки сайта kritikanstvo.ru

Данный пример, конечно, утрирован для наглядности. Но он хорошо показывает принцип, на котором зиждется работа оценочных агрегаторов типа metacritic.com, а именно: усреднение по сути разных эмоционально-субъективных мнений без калибровки их в единую шкалу ценностей. Да, входящие оценки критиков нормируются, но лишь примитивно-количественно внутри 100-балльного диапазона.

Полученный балл METASCORE – фикция, «сферический конь в вакууме», «средняя температура по больнице». И он означает не оценку игры, а среднее арифметическое отдельной выборки отзывов. Возьмите другую выборку отзывов – и балл будет другим. Не учитывайте слишком отличные от других оценки критиков, зачем портить показатели [сарказм]. Используйте разный набор и количество критиков для высчитывания «среднего очка», ведь различия в подходе добавляют объективности [двойной сарказм].

Повторим ещё раз: METASCORE – не универсальная оценка игры, а статистическое среднее НЕ определённого по формату, качеству и количеству набора НЕ калиброванных к единой шкале ценностей отзывов.


С этой стороны к metacritic.com не может быть никаких претензий. Сайт ведёт всего лишь статистический учёт отзывов. И если отличная игра вызвала у кого-то пусть даже крайнюю антипатию, это не должно казаться чем-то из ряда вон (в прямом смысле) выходящим. Как и восторги от посредственной игры – все мы когда-то играли в первый раз.

Использование 100-балльного диапазона в случае METASCORE увеличивает лишь точность вычисленного среднего, уменьшая при этом шансы этого числа совпасть со средней (до одной десятой), выставленной более широкой аудиторией оценкой диапазона от 0 до 10.

Предлагая посетителям выставлять оценки по 10-балльной шкале в тех же категориях, сайт metacritic.com даёт полное право ставить просто не понравившейся игре от 2 до 4 баллов и очень не понравившейся от 0 до 1. А теперь на основании этого можете приступать к раздаче «хедшотов антихейтерам» (headshots for antihaters).

Что значит оценка от 90 до 100? Допустим, пять критиков поставили по 100 баллов, а один решил, что игра – фигня, и поставил 50. Средние 92 балла означают всеобщее бурное одобрение. Как же так, один из шести не одобрил. Выходит, кто-то наврал. Либо пять критиков, либо тот один, либо сам оценочный подход. Так на 100 баллов эта игра, или на 92, или на 50? Были ли ангажированы пятеро или необъективен один? Разбираться надо с конкретными людьми и их отзывами. А средняя оценка в данном случае не более чем цифра 92.

Ситуация улучшается, когда количество отзывов от критиков достаточно велико, и чем больше, тем лучше. Но это ведь не такой частый случай.

Возможно ли как-то вычислить действительно универсальную, близкую к объективной оценку и решить все проблемы усреднённых «метаоценок»? Давайте пофантазируем.

Допустим, сайт-агрегатор будет проводить некое предварительное тест-анкетирование с применением детектора лжи для привязки представлений желающего внести своё мнение к единой шкале оценки. Мнение по игре тоже желательно принимать не в виде балла, а по результатам универсального вопросника и детектора лжи. И  в зависимости от процента не совсем искренних признаний каждая индивидуальная оценка будет снабжаться ещё и рейтингом доверия.

Другой вопрос, что такая замороченная система мало кому импонирует и сложно реализуема. Гораздо проще и удобнее лепить оценки с потолка. Ведь в таких малых диапазонах как 0...10 их не так уж и сложно даже заранее предугадать.

Да и к чему все сложности, когда любой эксперт с более-менее адекватным подходом и так ставит объективные оценки в рамках своей личной шкалы. Просто не надо тупо сравнивать его оценки с оценками других.

Ну а страдания и стенания чувствительных натур по поводу несправедливых оценок будут продолжаться вечно.

Разным подходам к формированию оценок мы как-то уже посвящали статью пару лет назад. Тогда же была анонсирована и наша собственная система оценки игр HEXmark специально для данного сайта, поскольку все существующие системы нас не устраивали. Надо сказать, что рейтинг HEXmark полностью себя оправдал и иногда даже удивляет. Не верьте тому, кто скажет, что игру нельзя разложить на компоненты, оценить их и сложить затем из них цельную оценку. Игра включает в себя широкий набор технических составляющих, выполненных с помощью технических средств по определённым технологиям техническими специалистами. Эта намеренная тавтология призвана подчеркнуть, что эти составляющие можно и нужно оценивать, хоть раздельно, хоть цельно.

Нужны ли вообще оценки? Конечно. Они проще и нагляднее для восприятия по сравнению с текстами. В тексте – детали, в оценке – общая «стоимость». Не оценка дополняет рецензию, а наоборот.

Если говорить о баллах нашего рейтинга, то они все взвешены и обоснованы. Подкреплять же каждую оценку развёрнутым текстом в нашем случае чрезмерный и напрасный расход времени и сил. Хотя плюс рецензий в том, что они не дают забыть, за что же каждая отдельная игра оценена именно так.

Но о вопросах рецензирования и прочих незатронутых моментах поговорим в следующих статьях цикла.
Опубликовано: 22.06.2013


Если вам есть, что добавить или возразить, оставьте своё мнение.
Если статья просто понравилась, оставьте благодарный отзыв.
Регистрация не требуется, но рамки приличий и законов остаются.
Администрация беспристрастно чистит комментарии, если они выходят за эти рамки.
Реклама, спам и флуд аннигилируются без возврата.

Всего комментариев: 0