Описательные статистики
- Алексей Линтур
- 11 июн. 2020 г.
- 3 мин. чтения
Это маникюрный набор в статистике. Маленький комплект, полный полезных инструментов на каждый день. Но не стоит их недооценивать! Каждый из них — это базовый кирпичик, на котором строятся более сложные и серьёзные вычислительные методы. Поэтому отнеситесь к описательным статистикам с должным почтением и вниманием; приложите усилия, чтобы понять каждый из этих инструментов. Будьте осторожны! Каждый из этих инструментов должен использоваться только для однотипных данных! Нельзя одновременно считать и яблоки, и трактора. Всегда делайте это отдельно, иначе — ошибок не избежать.
В исследовании нам часто нужно взять группу значений и представить их одним числом - вот тут нам придут на помощь эти маленькие умельцы. Давайте с ними знакомится. Чтобы не использовать много сложных слов, давайте разбирать это на примере. В таблице ниже представлены результаты подсчёта некоторой величины и их порядковые номера (в верхней строке).

Среднее значение. Кто не пользовался хотя бы раз в жизни средним значением?

Думаю, что таких нет. Среднее значение — сумма всех значений разделённая на их количество. Его всегда обозначают буквой с «крышечкой» - вертикальной чертой над ней. Для нашего примера среднее значение равно 13,7. Но что делать, если нам нужно подсчитать величину, которая не может быть дробной? Такие величины называют дискретными. Например, количество человек. Не может быть 13,7 человека. Это как? 13 людей и один без головы? У среднего значения есть две сестры. Они помогут нам в такой ситуации!
Медиана. Ещё её называют срединным значением; чтобы её найти, нужно выстроить значения в ряд по возрастанию и буквально найти средину.

Мода. Читательницам придётся этот инструмент по душе. Да, да, это именно то, что мы привыкли понимать под этим словом. Вы использовали его каждый день и не подозревали, что это инструмент описательной статистики? Мода — это наиболее часто встречаемое значение. Чтобы его найти, нужно посчитать сколько раз повторилось каждое из значений и взять то, которое повторилось чаще других.
Дисперсия покажет насколько каждое значение отличается от среднего. Это важно

для понимания насколько рассеяны результаты наблюдений. Чем выше значение дисперсии, тем больше разброс результатов вокруг среднего значения, тем больше изменчивость и ненадёжность наблюдений. Дисперсия обозначается s². Для нашего примера дисперсия равна 6,3. Сама по себе дисперсия не интересна, куда более полезен её старший брат — стандартное отклонение выборки. Для его расчёта нужно просто взять квадратный корень из дисперсии, потому обозначается буквой s (без квадрата; мы же взяли корень). В нашем примере s = 2,5.
Теперь нам нужно разделить полученное значение на корень из числа наблюдений и мы получим стандартную ошибку среднего — его обозначают SDx. В нашем примере SDx= 2,5/√9 = 2,5/3 = 0,83.
Если Вам непонятно как использовать все эти параметры —
не переживайте, мы уже почти у цели и скоро все прояснится.
Имея на руках этот козырь мы вплотную подходим к самому ценному, что может нам дать описательная статистика. Впервые мы сможем оценить значимость наших наблюдений и сделать вывод о том есть ли тут что-то важное-интересное или это просто пустая трата времени. Сейчас мы сотворим магию — перейдем от невзрачного числа к важному фактору. Все, что нам потребуется, так это умножить стандартную ошибку среднего на коэффициент Стьюдента...
- Что простите?.. - удивленно спросите Вы.
- А ничего страшного =)
Коэффициенты Стьюдента — это табличные значения которые творят чудеса — они позволяют осуществить переход от малого к большому. Найти эти значения не сложно — интернет в помощь. Для нашего примера с 9-ю наблюдениями и для надёжности в 95%, коэффициент Стьюдента будет равен 2,31:
нижний предел: 13,7 - 2,31 · 0,83 = 11,8
верхний предел: 13,7 + 2,31 · 0,83 = 15,6
Что же мы получим в итоге? Мы получим доверительный интервал — это пределы (нижний и верхний) между которыми должны лежать 95% значений выборки, при условии, что это натурально случайная величина. Уловили смысл? Если наше значение будет «вываливаться» за пределы доверительного интервала, то мы должны заподозрить неладное: либо мы где-то ошиблись (такое бывает), либо мы наблюдаем как раз то, что нам нужно — значимое отклонение от нормального значения. В статистике очень не любят те значения, которые вываливаются из доверительного интервала. Но в астрометрике это будет искомое значение. К примеру, если Вы подсчитываете распределение Солнца по знакам, то выпадение наблюдения за пределы доверительного интервала будет говорить о том, что людей с Солнцем в этом знаке существенно больше. Слово «существенно» тут нужно понимать не количественно, а качественно — как отличие, которое имеет смысл. Это доказательство важности наблюдения. И наоборот, если все значения вписались в доверительный интервал, то ничего необычного мы не наблюдаем, даже если численная разница есть.
P.S. Не пугайтесь сложных и замысловатых формул! Позже я покажу как посчитать это все за секунду и без мороки с формулами.
Comments