Глава 21. Элементарная статистика
Для овладения простейшими методами статистической обработки вам не потребуется компьютер или громоздкие вычисления. Мы обойдемся знаниями математики в объеме 5-го класса средней школы и простейшим калькулятором.Если мы будем изучать средний рост взрослых мужчин города N, то при большом числе исследований результаты измерений будут выглядеть примерно так, что наиболее часто будет встречаться какой-то средний рост, а отклонения от среднего роста и в меньшую, и в большую сторону будут встречаться с меньшей частотой. А лиц гигантского роста, как и карликов будет одинаково мало. Если соединить плавной кривой частоты различного роста, то получим характерную кривую, которая и называется кривой нормального распределения. Аналогично, исследуя содержание лейкоцитов в крови здоровых людей, мы определим, что чаще всего в среднем уровень лейкоцитов составляет 6·109/л. Окажется, что уровень лейкоцитов меньше 4·109/л и больше 8·109/л встречается у здоровых людей значительно реже. То есть получится кривая, по характеру сходная с кривой нормального распределения. Иными словами, не только рост, но и многие другие медицинские параметры при большом числе исследований подчиняются закону нормального распределения. Во всяком случае мы будем так считать для простоты, хотя это не всегда так. Если разброс данных невелик, кривая нормального распределения будет иметь высокий и острый купол, а если разброс значительный, купол будет плоским и широким.
Разброс данных характеризует сигма (у) или, как её называют среднее квадратное отклонение. Вычислением сигмы мы пока заниматься не будем, так как это дело довольно нудное, если вычислять по всем правилам. Но правило 3 сигм, пожалуй, надо знать. Вернемся к рис. 21-1. В пределах одной сигмы вправо и влево всегда находятся 68,3% всех данных, в пределах 2 сигм 95,5%, а в пределах 3 сигм 99,7%. По этому правилу иногда результаты исследования, выходящие за пределы 3 сигм, отбрасывают как недостоверные.
Таблица 21-1. Результаты исследования клиренса BUN гемодиализатора А
|
№
исследования |
Клиренс
BUN, мл/мин |
|
1
|
149
|
|
2
|
143
|
|
3
|
150
|
|
4
|
119
|
|
5
|
155
|
|
6
|
162
|
|
7
|
152
|
|
8
|
125
|
|
9
|
146
|
|
10
|
148
|
Для нас важно знать, насколько вычисленная средняя отличается от истинной средней, которая получилась бы при очень большом числе наблюдений, т.е. надо вычислить среднюю ошибку средней арифметической (m).
Для этого сначала все-таки найдем сигму (среднеквадратичное отклонение), но несложным путем. Не пугайтесь! Это просто!
Параметр К найдем из табл. 21-2.
Таблица 21-2. Определение величины К
|
n
|
0
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
8
|
9
|
|
0
|
-
|
-
|
1,13
|
1,69
|
2,06
|
2,33
|
2,53
|
2,70
|
2,85
|
2,97
|
|
10
|
3,08
|
3,17
|
3,26
|
3,34
|
3,41
|
3,47
|
3,53
|
3,59
|
3,64
|
3,69
|
|
20
|
3,73
|
3,78
|
3,82
|
3,86
|
3,90
|
3,93
|
3,96
|
4,00
|
4,03
|
4,06
|
|
30
|
4,09
|
4,11
|
4,14
|
4,16
|
4,19
|
4,21
|
4,24
|
4,26
|
4,28
|
4,30
|
Этого вполне достаточно для ориентировочной оценки такого уровня. Как видно, полученная средняя мало отличается от истинной средней.
Чтобы вычисление сигмы вас не смущало, даем формулу для вычисления m, без сигмы:
Таблица 21-3. Результаты исследования клиренса BUN гемодиализатора Б
|
№
исследования |
Клиренс
BUN, мл/мин |
|
1
|
171
|
|
2
|
171
|
|
3
|
175
|
|
4
|
183
|
|
5
|
186
|
|
6
|
183
|
|
7
|
185
|
|
8
|
184
|
|
9
|
177
|
|
10
|
182
|
Подобным образом можно оценивать любой вариационный ряд однородных наблюдений: средний уровень гемоглобина, средний вес, среднюю длительность лечения гемодиализом, средний возраст диализных больных, средний преддиализный уровень фосфора, среднее количество гепарина на 1 гемодиализ и т.д.
Конечно, представленный метод не точен, не вполне академичен, но зато прост и вполне достаточен для такого уровня работы и для примерной оценки.
Как сравнить средние из двух однородных исследований? Допустим, клиренсы BUN гемодиализаторов А и Б составляют:
Как узнать, случайна или не случайна разница полученных результатов или, иными словами, существенна или несущественна разница двух исследований?
В нашем примере t = 7,8 > 1,96. Значит, клиренс диализатора Б по азоту мочевины существенно превышает клиренс диализатора А (р < 0,05).
Большей точности, как правило, в медицинских исследованиях не требуется.
Еще один пример. Клиренс BUN гемодиализатора А составляет 145 ± 4 мл/мин, а диализатора Б - 152 ± 6 мл/мин. Можно ли утверждать, что клиренс диализатора Б существенно превосходит клиренс диализатора А?
Потренируйтесь сами. Клиренс креатинина гемодиализатора А равен 126 ± 5 мл/мин, а клиренс креатинина гемодиализатора Б 158 ± 2 мл/мин (Х±m). Существенна ли разница по клиренсу креатинина между двумя диализаторами?
Ответ: t = 5,9 > 1,96. Разница существенна.
На бумаге диаграмма будет выглядеть примерно так (рис. 21-3):
|
Гемодиализатор
|
Клиренс, мл/мин
|
|
A
|
145 ± 4
|
|
B
|
176 ± 2
|
|
C
|
149 ± 6
|
Таблица 21-4. Значения коэффициента Стьюдента t
с различной вероятностью
|
з = n-1
|
p < 0,05
|
p < 0,01
|
|
1
|
12,706
|
63,657
|
|
2
|
4,303
|
9,925
|
|
3
|
3,182
|
5,841
|
|
4
|
2,776
|
4,604
|
|
5
|
2,571
|
4,032
|
|
6
|
2,447
|
3,707
|
|
7
|
2,365
|
3,499
|
|
8
|
2,306
|
3,355
|
|
9
|
2,262
|
3,250
|
|
10
|
2,228
|
3,169
|
|
11
|
2,201
|
3,106
|
|
12
|
2,179
|
3,055
|
|
13
|
2,160
|
3,012
|
|
14
|
2,145
|
2,977
|
|
15
|
2,131
|
2,947
|
|
16
|
2,120
|
2,921
|
|
17
|
2,110
|
2,898
|
|
18
|
2,101
|
2,878
|
|
19
|
2,093
|
2,861
|
|
20
|
2,086
|
2,845
|
В столбце p < 0,05 находим:
Следовательно:
Иными словами, в 95% всех исследований средняя будет находиться в интервале от 142 до 170 мл/мин, и лишь 5% результатов могут быть вне этого интервала. Доверительный интервал с вероятностью p < 0,05 в медицинских исследованиях вполне достаточен.
Но если вы захотите дать ответ с вероятностью ошибки менее 1%, то доверительный интервал, естественно, расширится, так, t при p < 0,01 будет равен 3,250 (см. табл. 21-4):
Значит, в интервале от 136 до 176 мл/мин должна находиться средняя с вероятностью 99%.
Таблица 21-5. Уровень лейкоцитов в тыс/мм3 во время гемодиализа с мембраной из купрофана
|
№ иссле-дования
|
Время гемодиализа, мин
|
|
|
|
|
0
|
15
|
60
|
|
1
|
5,0
|
1,75
|
4,6
|
|
2
|
4,2
|
1,6
|
5,0
|
|
3
|
5,4
|
1,5
|
4,2
|
|
4
|
4,5
|
1,2
|
4,3
|
|
5
|
4,1
|
1,4
|
3,9
|
|
6
|
5,0
|
2,8
|
5,3
|
|
7
|
3,2
|
0,8
|
3,5
|
|
8
|
4,0
|
1,3
|
2,9
|
|
9
|
3,3
|
0,7
|
2,6
|
|
10
|
4,1
|
1,1
|
3,0
|
|
X
|
4,3
|
1,4
|
3,9
|
|
±m
|
0,2
|
0,2
|
0,3
|
В статистическом анализе нас обычно интересует не сама цифра, а направленность какого-либо процесса, существенна или несущественна разница между двумя показателями. Предлагаемый читателю упрощенный способ статистической оценки позволяет быстро сориентироваться в изучаемом явлении.
Конечно, если исследование имеет аналитический характер, его надо проводить по всем правилам, хотя если закономерность есть, она выявляется уже при ориентировочной оценке.
Непараметрических критериев множество. Наиболее удобен непараметрический критерий знаков, который хорош для оценки значимости изменений в парных наблюдениях.
Например, мы исследовали уровень гемоглобина у каждого из 11 гемодиализных больных в апреле и мае (табл. 21-6).
Таблица 21-6. Уровень гемоглобина (в г/л) у 11 гемодиализных больных в апреле и мае
|
№ иссле-дования
|
Гемо-глобин в апреле
|
Гемо-глобин в мае
|
Знак
|
|
1
|
42
|
58
|
+
|
|
2
|
56
|
80
|
+
|
|
3
|
52
|
56
|
+
|
|
4
|
52
|
64
|
+
|
|
5
|
62
|
86
|
+
|
|
6
|
42
|
68
|
+
|
|
7
|
48
|
76
|
+
|
|
8
|
68
|
48
|
-
|
|
9
|
64
|
64
|
0
|
|
10
|
56
|
62
|
+
|
|
11
|
60
|
52
|
-
|
Из таблицы видно, что у большинства больных уровень гемоглобина увеличивался, а у некоторых уменьшался. Возникает вопрос: есть ли закономерность, можно ли утверждать, что повышение уровня гемоглобина было закономерным? Ведь оно произошло не у всех больных.
Критерии знаков для оценки существенности в парных сравнениях представлены в табл. 21-7.
Таблица 21-7. Критерий знаков для оценки существенности в парных сравнениях
|
Число парных наблюдений, n
|
Z05
|
Z01
|
|
5
|
0
|
-
|
|
6
|
0
|
-
|
|
7
|
0
|
0
|
|
8
|
1
|
0
|
|
9
|
1
|
0
|
|
10
|
1
|
0
|
|
11
|
2
|
1
|
|
12
|
2
|
1
|
|
13
|
3
|
1
|
|
14
|
3
|
1
|
|
15
|
3
|
2
|
|
16
|
4
|
2
|
Если в исследовании Z05 < Z, то колебания можно считать случайными.
Если Z05 ? Z, то изменения не случайны с вероятностью ошибки p<0,05.
Ну а если Z01 ? Z, то можно говорить о закономерности изменений с большей вероятностью р < 0,01. В нашем исследовании в 11 парных случаях всего 2 отрицательных знака, т.е.:
Это означает, что повышение уровня гемоглобина было закономерно с вероятностью р<0,05. Но утверждать подобное с р < 0,01 мы уже не можем, так как:
Непараметрический критерий очень подходит для быстрой проверки правильности какого-либо предположения, что избавляет от бессмысленного накопления большого количества данных.
Большая выборка далеко не всегда дает более точный результат.
Таблица 21-8. Уровень гемоглобина (в г/л) у 7 гемодиализных больных
|
№ исследования
|
Март
|
Апрель
|
Май
|
|
1
|
76
|
60
|
64
|
|
2
|
84
|
80
|
68
|
|
3
|
96
|
80
|
96
|
|
4
|
110
|
84
|
88
|
|
5
|
68
|
56
|
68
|
|
6
|
72
|
42
|
58
|
|
7
|
68
|
56
|
80
|
Обработайте статистически полученные данные. Представьте их в виде таблицы и графика. Достоверно ли отличался уровень гемоглобина в марте от уровня гемоглобина в апреле?
ОТВЕТ:
1) таблица:
|
Месяц
|
Гемоглобин, г/л
|
|
Март
|
82±5,9
|
|
Апрель
|
65±5,9
|
|
Май
|
75±5,3
|
Приведенный случай не выдуман, а взят из реальной жизни. Подумайте: что могло бы вызвать столь катастрофическое снижение уровня гемоглобина и как это положение удалось исправить?
Таблица 21-9. Преддиализные уровни мочевины и гемоглобина у гемодиализных больных.
|
№ иссле-дования
|
Мочевина (Х), ммоль/л
|
Гемоглобин (У), г/л
|
|
1
|
29
|
89
|
|
2
|
33
|
89
|
|
3
|
31
|
89
|
|
4
|
19
|
67
|
|
5
|
23
|
67
|
|
6
|
24
|
72
|
|
7
|
23
|
75
|
|
8
|
27
|
89
|
|
9
|
23
|
89
|
|
10
|
19
|
86
|
|
11
|
27
|
123
|
|
12
|
28
|
72
|
|
13
|
29
|
79
|
|
14
|
23
|
108
|
|
15
|
26
|
50
|
|
16
|
31
|
86
|
|
17
|
27
|
75
|
|
18
|
27
|
108
|
|
19
|
30
|
115
|
|
20
|
28
|
100
|
|
21
|
29
|
82
|
Нарисуем длинную ось этого овала. Такой график называется корреляционным полем. Вытянутая форма корреляционного поля и угол, близкий к 45°, который образует длинная ось с координатными осями, свидетельствует о наличии корреляционной связи между изучаемыми явлениями, т.е. большему значению преддиализного уровня мочевины соответствует большее значение гемоглобина. Таким образом, в нашем случае мы можем утверждать, что между изучаемыми параметрами имеется корреляционная связь, или зависимость. Но не более того.
Для аналитической оценки корреляционной связи необходимо определить коэффициент корреляции r. Мы не предлагаем читателю сделать это самостоятельно, так как определить r с помощью простого калькулятора, хотя и несложно, но требует определенных усилий. Для интереса сообщим, что в приведенном наблюдении r = 0,36. Как оценить величину коэффициента корреляции? Обратимся к табл. 21-10.
Таблица 21-10. Оценка степени корреляционной связи по коэффициенту корреляции
|
Степень связи (r)
|
Прямая
|
Обратная
|
|
Связь
|
|
|
|
отсутствует
|
0
|
0
|
|
слабая
|
От 0 до +0,3
|
От 0 до -0,3
|
|
умеренная
|
От +0,31 до +0,7
|
От -0,31 до -0,7
|
|
сильная
|
От +0,7 до +1,0
|
От -0,7 до -1,0
|
|
функциональная
|
+1,0
|
-1,0
|
На этом описание корреляционного анализа мы закончим, так как практическому врачу, вероятно, графического анализа достаточно. Конечно, чтобы формализовать результаты корреляционного анализа, вы должны определить коэффициент корреляции и уравнение регрессии. Но для этого лучше обратиться к специалистам, так как эти вычисления на калькуляторе громоздки и, пожалуй, необходим компьютер.
Если в вашем исследовании не выявлено корреляционной связи, не огорчайтесь. С научной точки зрения отрицательный результат не менее ценен, чем положительный, и вполне заслуживает внимания.































