МАТЕМАТИЧЕСКАЯ СТАТИСТИКА, наука о математическом описании и определении по неполным данным свойств статистических коллективов. Статистическим коллективом называется совокупность вещей или явлений, объединенных в целое и однородное единство по нек-рым определенным признакам, а по другим признакам разбитых на группы или классы (напр. население определенной страны в определенный момент времени, разбитое по возрастным группам). Признаки, по к-рым статистич. коллектив разбивается на группы или классы, называются его аргументами. Число членов статистич. коллектива составляет его объем. Числа членов статистич. коллектива в отдельных группах или классах называются численностями их, или частотами соответственных значений аргументов. — М. с. преследует двоякого рода задачи: описательные и нормативные. Описательные задачи разрешаются описанием отдельных конкретных статистич. коллективов, заключающемся в установлении их статистич. характеристик или сводных признаков (средних, дисперсий, моментов и т. п.), закономерностей в распределении частот и связей между аргументами. Нормативные задачи М. с. состоят в выяснении возможности перенесения свойств, установленных для данного статистич. коллектива, на более обширный неизученный коллектив (генеральный статистич. коллектив), часть к-рого составляет данный, или на совокупность коллективов, аналогичных данному. В этом случае, при некоторых добавочных условиях, данный коллектив называется случайной выборкой или просто выборкой из ген. коллектива, и определение объема и характера выборки, при к-рых выводы из выборки распространились бы на ген. коллектив с заданными точностью и вероятностью, составляет основную проблему одного из важнейших отделов М. с. — теории выборок. Статистические характеристики рассматриваются в учении о средних, дисперсии, моментах и в теории оценок статистич. характеристик. Описанием закономерностей в распределении частот статистич. коллективов занимается теория кривых распределения, а описанием связей между аргументами их — теории корреляции и ассоциации.
Средние, дисперсия, моменты. Подготовительными операциями н описанию статистич. коллективов служат составление таблиц распределения, в которых указываются аргументы, классы и численности классов коллективов и геометрических изображений таблиц в виде диаграмм, полигонов, гистограмм (ступенчатых графиков) и т. п. Дальнейшим наиболее важным средством изучения статистич. коллективов является составление средних — статистич. характеристик, описывающих положение статистич. коллектива. Возьмем, напр., одномерный статистич. коллектив (коллектив с одним количественным аргументом) , представленный таблицей:
в к-рой — значения аргумента , а — числа случаев, в которых наблюдались эти значения . Для средняя арифметическая или просто средняя аргумента определяется равенством
и представляет наиболее простую и распространенную статистич. характеристику. Медиана (см.) () представляет следующий по важности вид средней и определяется как такое значение аргумента, менее и более к-рого значения в встречаются одинаково часто. Кроме этих наиболее употребительных средних, рассматриваются еще средние гармоническая, геометрическая и т. д. Следующими по важности статистич. характеристиками являются меры рассеяния значений аргумента в статистич. коллективе: среднее квадратическое отклонение, дисперсия, вероятное отклонение, среднее абсолютное отклонение, квартили и т. п. Из этих мер наиболее употребительные среднее квадратическое отклонение и дисперсия; первое определяется равенством
а вторая равна . Для большинства действительных коллективов среднее квадратическое отклонение обладает тем свойством, что в границах между и лежит более 99% всех встречающихся в коллективе значений . Таким образом, чем менее , тем более сосредоточены значения аргумента около их средней. Среднее квадратическое отклонение возможных значений какой-либо статистич. характеристики определяет ее точность и надежность, и потому разыскание средних квадратических отклонений статистич. характеристик составляет одну из важных задач М. с. Среднее квадратическое отклонение или средняя квадратическая ошибка средней равна . — Средние и меры дисперсии представляют частный случай более общего средства изучения статистич. коллективов, т. н. моментов (см.), среди к-рых различаются начальные, центральные и около произвольного начала. Начальные моменты определяются равенством
центральные — равенством
моменты около произвольного начала — равенством
называется порядком момента и принимает любые положительные значения. Первый начальный момент представляет среднюю , второй центральный момент — дисперсию , при помощи третьего центрального момента строится коэффициент асимметрии , измеряющий асимметрию распределения аргумента, и при помощи четвертого центрального момента строится эксцесс , измеряющий плоско- или высоковершинность распределения. Моменты более высокого порядка в М. с. употребляются очень редко. В новейшее время в М. с. стали употребляться кумулянты Р. Фишера, аналогичные моментам величины, обладающие некоторыми преимуществами перед ними. Распределения и кривые распределения. Дальнейшим средством описания одномерных статистич. коллективов служат нек-рые определенные распределения и кривые распределения (см.). Наиболее важными из таких распределений являются биномиальное распределение Пуассона и нормальное или Гауссово распределение. Первое служит для описания распределений, к-рые могут быть сравнены с распределением частот нек-рого события в независимых испытаниях при постоянной вероятности события в каждом испытании. Второе — для описания распределений редких явлений (рождение троен и четверен, испускание -частиц при распаде радиоактивных веществ и т. п.). Нормальное распределение, имеющее уравнением
играет в М. с. фундаментальную роль, теоретическую и практическую, и служит для описания распределения аргументов, которые можно рассматривать как слагающиеся при воздействии многочисленных независимых или почти независимых причин (таким аргументом, напр., можно считать рост человека, распределение к-рого для большого однородного коллектива очень точно следует нормальному закону распределения). Уравнение (A) в геометрическом истолковании представляет нормальную кривую — одну из кривых распределения, служащих для описания непрерывных распределений (распределений с непрерывным аргументом). Общий вид их представляется уравнением
где — параметры распределения, принимающие определенные значения для данного конкретного распределения. При помощи кривой распределения находятся частоты пар значений аргумента, лежащих между заданными границами и , и задача теории кривых распределения заключается в разыскании для различных распределений или классов их соответствующих форм функции и способов разыскания значений параметров — таких, чтобы вычисленные частоты пар были возможно ближе к наблюденным для всех классов данного коллектива. Наиболее употребительны для разыскания параметров наименьших квадратов способ (см.) и способ моментов. Первый заключается в том, что ищутся значения параметров , обращающие в минимум сумму квадратов разностей между вычисленными и наблюденными частотами распределения, второй — в разыскании таких значений , к-рые делают равными вычисленные по кривой распределения и по данному распределению моменты первых порядков вплоть до . В последнее время, по предложению Р. Фишера, стал применяться способ наибольшего правдоподобия, состоящий в том, что ищутся значения параметров , обращающие в максимум особую величину, называемую правдоподобием и пропорциональную вероятности наблюдения частот, равных наблюденным. — Наиболее употребительными формами функции являются функции, определяемые дифференциальным уравнением К. Пирсона
и ряды Шарлье, доставляющие обобщения нормального распределения и распределения Пуассона. — Когда кривая распределения рассматривается как закон распределения аргумента в генеральном коллективе, тогда возникают задачи теоретического обоснования формы функции и оценки найденных значений параметров . Форма функции может быть выбрана на основании соображений о реальной природе генерального коллектива, а оценка параметров — проще всего достигается разысканием их средних квадратических ошибок. Точное разрешение вопроса об этой оценке получается, если удастся найти распределение параметров — в бесконечной совокупности выборок, аналогичных той, к-рая дает исследуемое конкретное распределение. Когда кривая распределения найдена и вычислены по ней частоты, возникает вопрос, насколько удовлетворительно они воспроизводят наблюденные частоты. Для разрешения его чаще всего употребляется критерий согласия Пирсона
в к-ром обозначает вычисленные и — наблюденные частоты и к-рый, при помощи особых таблиц, дает возможность найти вероятность случайных расхождений , столь же или менее вероятных, чем наблюденные; когда мало, согласие между частотами и считается неудовлетворительным.
Выборочный метод. Наиболее важное средство для разрешения нормативных задач М. с. заключается в методе выборок. Когда изучаемый статистич. коллектив бесконечен или слишком велик и труден для исчерпывающего статистич. исследования или не может быть подвергнут исчерпывающему исследованию по каким-либо другим причинам (если, напр., оно сопряжено с порчей или уничтожением объектов исследования), тогда изучают лишь нек-рую долю генерального коллектива, которая выбирается так, чтобы в ней распределение изучаемого аргумента было достаточно близко к его распределению в генеральном коллективе. Для этого выборка производится согласно определенным стохастическим схемам и должна быть должного объема. Достаточно полно в М. с. изучены лишь выборки из генерального коллектива с нормальным распределением аргумента. Они вместе с тем очень важны в виду исключительной роли нормального распределения в методах М. с. Особенно важную роль в современной М. с. играют т. н. малые выборки, т. е. выборки произвольного объема, к-рый может быть и очень малым. Важность их теории ясна из того, что статистич. исследования в биологии, агрономии, технике и т. д. дают чаще всего коллективы небольшого объема. Основная проблема малых выборок заключается в разыскании точного распределения различных статистич. характеристик в них. Напр., известны распределения средней, дисперсии и нек-рых других характеристик в выборках любого заданного объема из коллективов с нормальным распределением аргумента. Эти распределения дали начало новейшим статистич. критериям: Стюдента, Фишера и др., к-рые лежат в основании ряда новейших статистич. методов исследования, нашедших весьма широкие и разнообразные применения.
Многомерные статистические коллективы — коллективы с несколькими аргументами. При изучении их возникает ряд новых задач, связанных с основной проблемой изучения статистич. зависимостей. Статистические зависимости противопоставляются функциональным и определяются, напр., для двух аргументов и следующим образом: называется статистич. зависящим от , если условные распределения , т. е. распределения его, соответствующие заданным значениям , изменяются вместе с изменением (см. также Корреляция). К М. с. относятся также теория устойчивости статистич. рядов, теория временных рядов и теория ассоциации, изучающая связи между качественными аргументами статистич. коллективов.
Первые начала М. с. можно найти уже в сочинениях Я. Бернулли и Лапласа, рассматривавших применения теории вероятностей к социальным, экономическим, моральным и демографическим вопросам. Но основателем ее считают А. Кетле (1796—1874), применявшего математико-статистические методы в демографии и антропометрии. Основателями современной М. с. считаются Френсис Гальтон (1822—1911) и Карл Пирсон (1857—1936); первый положил начало теории корреляции и биометрии; а второй широко развил их и создал ряд современных методов М. с. (теорию моментов, кривые распределения, критерий и др.). В новейшее время Рональд Фишер создал общую теорию оценок статистич. характеристик, методов дисперсионного анализа, теорию малых выборок и т. д. Среди математиков-статистиков последнего времени следует еще назвать Шарлье, построившего ряды, обобщающие распределения Гаусса и Пуассона, и А. А. Чупрова. О роли М. с., как аппарате математических приемов статистики, см. Статистика.
Лит.: Чупров А. А., Основные проблемы теории корреляции, М., 1926; Математические методы в статистике. Сб. ст. под ред. Г. Л. Ритца, пер. и обработ. С. П. Бобров, М., 1927; Романовский В. И., Элементарный курс математической статистики, М. — Л., 1924; Лахтин Л. К., Кривые распределения..., М., [1922]; Эльдертон В. П., Кривые распределения численностей и корреляция, пер. с английского, М., 1924; Слуцкий Е. Е., Теория корреляции и эле ленты учения о кривых распределения, Киев, 1912; Романовский В. И., Элементы теории корреляции, 2 изд., Ташкент, 1928; Yule G. U., An Introduction to the theory of statistics, 10 ed., L., 1932; Fisher R. A., Statistical methods for research workers, 5 ed., L. — Edinburgh, 1934; Anderson O. N., Einführung in die mathematische Statistik, W., 1935; Darmois G., Statistique mathématique, Paris, 1928; Jordan Ch., Statistique mathématique, P., 1927; Risser R. et Traynard C. E., Les principes de la statistique mathématique, P., 1933.