Математическая статистика. Учебное пособие: Математическая статистика На методы какой науки опирается математическая статистика

Как используются теория вероятностей и математическая статистика ? Эти дисциплины - основа вероятностно-статистических методов принятия решений . Чтобы воспользоваться их математическим аппаратом, необходимо задачи принятия решений выразить в терминах вероятностно-статистических моделей. Применение конкретного вероятностно-статистического метода принятия решений состоит из трех этапов:

  • переход от экономической, управленческой, технологической реальности к абстрактной математико-статистической схеме, т.е. построение вероятностной модели системы управления, технологического процесса, процедуры принятия решений , в частности по результатам статистического контроля, и т.п.;
  • проведение расчетов и получение выводов чисто математическими средствами в рамках вероятностной модели;
  • интерпретация математико-статистических выводов применительно к реальной ситуации и принятие соответствующего решения (например, о соответствии или несоответствии качества продукции установленным требованиям, необходимости наладки технологического процесса и т.п.), в частности, заключения (о доле дефектных единиц продукции в партии, о конкретном виде законов распределения контролируемых параметров технологического процесса и др.).

Математическая статистика использует понятия, методы и результаты теории вероятностей. Рассмотрим основные вопросы построения вероятностных моделей принятия решений в экономических, управленческих, технологических и иных ситуациях. Для активного и правильного использования нормативно-технических и инструктивно-методических документов по вероятностно-статистическим методам принятия решений нужны предварительные знания. Так, необходимо знать, при каких условиях следует применять тот или иной документ, какую исходную информацию необходимо иметь для его выбора и применения, какие решения должны быть приняты по результатам обработки данных и т.д.

Примеры применения теории вероятностей и математической статистики . Рассмотрим несколько примеров, когда вероятностно-статистические модели являются хорошим инструментом для решения управленческих, производственных, экономических, народнохозяйственных задач. Так, например, в романе А.Н. Толстого "Хождение по мукам" (т.1) говорится: "мастерская дает двадцать три процента брака, этой цифры вы и держитесь, - сказал Струков Ивану Ильичу".

Встает вопрос, как понимать эти слова в разговоре заводских менеджеров, поскольку одна единица продукции не может быть дефектна на 23%. Она может быть либо годной, либо дефектной. Наверное, Струков имел в виду, что в партии большого объема содержится примерно 23% дефектных единиц продукции. Тогда возникает вопрос, а что значит "примерно"? Пусть из 100 проверенных единиц продукции 30 окажутся дефектными, или из 1000-300, или из 100000-30000 и т.д., надо ли обвинять Струкова во лжи?

Или другой пример. Монетка, которую используют как жребий, должна быть "симметричной", т.е. при ее бросании в среднем в половине случаев должен выпадать герб, а в половине случаев - решетка (решка, цифра). Но что означает "в среднем"? Если провести много серий по 10 бросаний в каждой серии, то часто будут встречаться серии, в которых монетка 4 раза выпадает гербом. Для симметричной монеты это будет происходить в 20,5% серий. А если на 100000 бросаний окажется 40000 гербов, то можно ли считать монету симметричной? Процедура принятия решений строится на основе теории вероятностей и математической статистики.

Рассматриваемый пример может показаться недостаточно серьезным. Однако это не так. Жеребьевка широко используется при организации промышленных технико-экономических экспериментов, например, при обработке результатов измерения показателя качества (момента трения) подшипников в зависимости от различных технологических факторов (влияния консервационной среды, методов подготовки подшипников перед измерением, влияния нагрузки подшипников в процессе измерения и т.п.). Допустим, необходимо сравнить качество подшипников в зависимости от результатов хранения их в разных консервационных маслах, т.е. в маслах состава и . При планировании такого эксперимента возникает вопрос, какие подшипники следует поместить в масло состава , а какие - в масло состава , но так, чтобы избежать субъективизма и обеспечить объективность принимаемого решения.

Ответ на этот вопрос может быть получен с помощью жребия. Аналогичный пример можно привести и с контролем качества любой продукции. Чтобы решить, соответствует или не соответствует контролируемая партия продукции установленным требованиям, делается выборка . По результатам контроля выборки делается заключение обо всей партии. В этом случае очень важно избежать субъективизма при формировании выборки, т.е. необходимо, чтобы каждая единица продукции в контролируемой партии имела одинаковую вероятность быть отобранной в выборку. В производственных условиях отбор единиц продукции в выборку обычно осуществляют не с помощью жребия, а по специальным таблицам случайных чисел или с помощью компьютерных датчиков случайных чисел.

Аналогичные проблемы обеспечения объективности сравнения возникают при сопоставлении различных схем организации производства , оплаты труда, при проведении тендеров и конкурсов, подбора кандидатов на вакантные должности и т.п. Всюду нужна жеребьевка или подобные ей процедуры. Поясним на примере выявления наиболее сильной и второй по силе команд при организации турнира по олимпийской системе (проигравший выбывает). Пусть всегда более сильная команда побеждает более слабую. Ясно, что самая сильная команда однозначно станет чемпионом. Вторая по силе команда выйдет в финал тогда и только тогда, когда до финала у нее не будет игр с будущим чемпионом. Если такая игра будет запланирована, то вторая по силе команда в финал не попадет. Тот, кто планирует турнир, может либо досрочно "выбить" вторую по силе команду из турнира, сведя ее в первой же встрече с лидером, либо обеспечить ей второе место , обеспечив встречи с более слабыми командами вплоть до финала. Чтобы избежать субъективизма, проводят жеребьевку. Для турнира из 8 команд вероятность того, что в финале встретятся две самые сильные команды, равна 4/7. Соответственно с вероятностью 3/7 вторая по силе команда покинет турнир досрочно.

При любом измерении единиц продукции (с помощью штангенциркуля, микрометра, амперметра и т.п.) имеются погрешности. Чтобы выяснить, есть ли систематические погрешности, необходимо сделать многократные измерения единицы продукции, характеристики которой известны (например, стандартного образца). При этом следует помнить, что кроме систематической присутствует и случайная погрешность .

Поэтому встает вопрос, как по результатам измерений узнать, есть ли систематическая погрешность . Если отмечать только, является ли полученная при очередном измерении погрешность положительной или отрицательной, то эту задачу можно свести к предыдущей. Действительно, сопоставим измерение с бросанием монеты, положительную погрешность - с выпадением герба, отрицательную - решетки (нулевая погрешность при достаточном числе делений шкалы практически никогда не встречается). Тогда проверка отсутствия систематической погрешности эквивалентна проверке симметричности монеты.

Целью этих рассуждений является сведение задачи проверки отсутствия систематической погрешности к задаче проверки симметричности монеты. Проведенные рассуждения приводят к так называемому "критерию знаков" в математической статистике.

При статистическом регулировании технологических процессов на основе методов математической статистики разрабатываются правила и планы статистического контроля процессов, направленные на своевременное обнаружение разладки технологических процессов, принятия мер к их наладке и предотвращению выпуска продукции, не соответствующей установленным требованиям. Эти меры нацелены на сокращение издержек производства и потерь от поставки некачественных единиц продукции. При статистическом приемочном контроле на основе методов математической статистики разрабатываются планы контроля качества путем анализа выборок из партий продукции. Сложность заключается в том, чтобы уметь правильно строить вероятностно-статистические модели принятия решений , на основе которых можно ответить на поставленные выше вопросы. В математической статистике для этого разработаны вероятностные модели и методы проверки гипотез, в частности, гипотез о том, что доля дефектных единиц продукции равна определенному числу , например, (вспомните слова Струкова из романа А.Н. Толстого).

Задачи оценивания . В ряде управленческих, производственных, экономических, народнохозяйственных ситуаций возникают задачи другого типа - задачи оценки характеристик и параметров распределений вероятностей.

Рассмотрим пример. Пусть на контроль поступила партия из N электроламп. Из этой партии случайным образом отобрана выборка объемом n электроламп. Возникает ряд естественных вопросов. Как по результатам испытаний элементов выборки определить средний срок службы электроламп и с какой точностью можно оценить эту характеристику? Как изменится точность , если взять выборку большего объема? При каком числе часов можно гарантировать, что не менее 90% электроламп прослужат и более часов?

Предположим, что при испытании выборки объемом электроламп дефектными оказались электроламп. Тогда возникают следующие вопросы. Какие границы можно указать для числа дефектных электроламп в партии, для уровня дефектности и т.п.?

Или при статистическом анализе точности и стабильности технологических процессов надлежит оценить такие показатели качества , как среднее значение контролируемого параметра и степень его разброса в рассматриваемом процессе. Согласно теории вероятностей в качестве среднего значения случайной величины целесообразно использовать ее математическое ожидание, а в качестве статистической характеристики разброса - дисперсию, среднее квадратическое отклонение или коэффициент вариации . Отсюда возникает вопрос: как оценить эти статистические характеристики по выборочным данным и с какой точностью это удается сделать? Аналогичных примеров можно привести очень много. Здесь важно было показать, как теория вероятностей и математическая статистика могут быть использованы в производственном менеджменте при принятии решений в области статистического управления качеством продукции.

Что такое "математическая статистика" ? Под математической статистикой понимают "раздел математики, посвященный математическим методам сбора, систематизации, обработки и интерпретации статистических данных, а также использование их для научных или практических выводов. Правила и процедуры математической статистики опираются на теорию вероятностей, позволяющую оценить точность и надежность выводов, получаемых в каждой задаче на основании имеющегося статистического материала" [ [ 2.2 ] , с. 326]. При этом статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.

По типу решаемых задач математическая статистика обычно делится на три раздела: описание данных, оценивание и проверка гипотез.

По виду обрабатываемых статистических данных математическая статистика делится на четыре направления:

  • одномерная статистика (статистика случайных величин), в которой результат наблюдения описывается действительным числом;
  • многомерный статистический анализ, где результат наблюдения над объектом описывается несколькими числами (вектором);
  • статистика случайных процессов и временных рядов, где результат наблюдения - функция;
  • статистика объектов нечисловой природы, в которой результат наблюдения имеет нечисловую природу, например, является множеством (геометрической фигурой), упорядочением или получен в результате измерения по качественному признаку.

Исторически первыми появились некоторые области статистики объектов нечисловой природы (в частности, задачи оценивания доли брака и проверки гипотез о ней) и одномерная статистика . Математический аппарат для них проще, поэтому на их примере обычно демонстрируют основные идеи математической статистики.

Лишь те методы обработки данных, т.е. математической статистики, являются доказательными, которые опираются на вероятностные модели соответствующих реальных явлений и процессов. Речь идет о моделях поведения потребителей, возникновения рисков, функционирования технологического оборудования, получения результатов эксперимента, течения заболевания и т.п. Вероятностную модель реального явления следует считать построенной, если рассматриваемые величины и связи между ними выражены в терминах теории вероятностей. Соответствие вероятностной модели реальности, т.е. ее адекватность , обосновывают, в частности, с помощью статистических методов проверки гипотез.

Невероятностные методы обработки данных являются поисковыми, их можно использовать лишь при предварительном анализе данных, так как они не дают возможности оценить точность и надежность выводов, полученных на основании ограниченного статистического материала.

Вероятностные и статистические методы применимы всюду, где удается построить и обосновать вероятностную модель явления или процесса. Их применение обязательно, когда сделанные на основе выборочных данных выводы переносятся на всю совокупность (например, с выборки на всю партию продукции).

В конкретных областях применений используются как вероятностно- статистические методы широкого применения, так и специфические. Например, в разделе производственного менеджмента, посвященного статистическим методам управления качеством продукции, используют прикладную математическую статистику (включая планирование экспериментов). С помощью ее методов проводится статистический анализ точности и стабильности технологических процессов и статистическая оценка качества. К специфическим относятся методы статистического приемочного контроля качества продукции, статистического регулирования технологических процессов, оценки и контроля надежности и др.

Широко применяются такие прикладные вероятностно-статистические дисциплины, как теория надежности и теория массового обслуживания. Содержание первой из них ясно из названия, вторая занимается изучением систем типа телефонной станции, на которую в случайные моменты времени поступают вызовы - требования абонентов, набирающих номера на своих телефонных аппаратах. Длительность обслуживания этих требований, т.е. длительность разговоров, также моделируется случайными величинами. Большой вклад в развитие этих дисциплин внесли член-корреспондент АН СССР А.Я. Хинчин (1894-1959), академик АН УССР Б.В. Гнеденко (1912-1995) и другие отечественные ученые.

Коротко об истории математической статистики . Математическая статистика как наука начинается с работ знаменитого немецкого математика Карла Фридриха Гаусса (1777-1855), который на основе теории вероятностей исследовал и обосновал метод наименьших квадратов , созданный им в 1795 г. и примененный для обработки астрономических данных (с целью уточнения орбиты малой планеты Церера). Его именем часто называют одно из наиболее популярных распределений вероятностей - нормальное, а в теории случайных процессов основной объект изучения - гауссовские процессы.

В конце XIX в. - начале ХХ в. крупный вклад в математическую статистику внесли английские исследователи, прежде всего К. Пирсон (1857-1936) и Р.А. Фишер (1890-1962). В частности, Пирсон разработал критерий "хи-квадрат" проверки статистических гипотез, а Фишер - дисперсионный анализ , теорию планирования эксперимента, метод максимального правдоподобия оценки параметров.

В 30-е годы ХХ в. поляк Ежи Нейман (1894-1977) и англичанин Э. Пирсон развили общую теорию проверки статистических гипотез, а советские математики академик А.Н. Колмогоров (1903-1987) и член-корреспондент АН СССР Н.В. Смирнов (1900-1966) заложили основы непараметрической статистики. В сороковые годы ХХ в. румын А. Вальд (1902-1950) построил теорию последовательного статистического анализа.

Математическая статистика бурно развивается и в настоящее время. Так, за последние 40 лет можно выделить четыре принципиально новых направления исследований [ [ 2.16 ] ]:

  • разработка и внедрение математических методов планирования экспериментов;
  • развитие статистики объектов нечисловой природы как самостоятельного направления в прикладной математической статистике;
  • развитие статистических методов, устойчивых по отношению к малым отклонениям от используемой вероятностной модели;
  • широкое развертывание работ по созданию компьютерных пакетов программ, предназначенных для проведения статистического анализа данных.

Вероятностно-статистические методы и оптимизация . Идея оптимизации пронизывает современную прикладную математическую статистику и иные статистические методы . А именно - методы планирования экспериментов, статистического приемочного контроля, статистического регулирования технологических процессов и др. С другой стороны, оптимизационные постановки в теории принятия решений , например, прикладная теория оптимизации качества продукции и требований стандартов, предусматривают широкое использование вероятностно-статистических методов, прежде всего прикладной математической статистики.

В производственном менеджменте, в частности, при оптимизации качества продукции и требований стандартов особенно важно применять статистические методы на начальном этапе жизненного цикла продукции, т.е. на этапе научно-исследовательской подготовки опытно-конструкторских разработок (разработка перспективных требований к продукции, аванпроекта, технического задания на опытно-конструкторскую разработку). Это объясняется ограниченностью информации, доступной на начальном этапе жизненного цикла продукции, и необходимостью прогнозирования технических возможностей и экономической ситуации на будущее. Статистические методы должны применяться на всех этапах решения задачи оптимизации - при шкалировании переменных, разработке математических моделей функционирования изделий и систем, проведении технических и экономических экспериментов и т.д.

В задачах оптимизации, в том числе оптимизации качества продукции и требований стандартов, используют все области статистики. А именно - статистику случайных величин, многомерный статистический анализ , статистику случайных процессов и временных рядов, статистику объектов нечисловой природы. Выбор статистического метода для анализа конкретных данных целесообразно проводить согласно рекомендациям [

1. Математическая статистика. Введение

Математическая статистика - это такая дисциплина, которая применяется во всех областях научного знания.

Статистические методы предназначены для понимания "численной природы" действительности (Nisbett, et al., 1987).

Определение понятия

Математическая статистика - это раздел математики, посвященный методам анализа данных, преимущественно вероятностной природы. Она занимается систематизацией, обработкой и использованием статистических данных для теоретических и практ ических выводов.

Статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками. Здесь важно понять, что статистика имеет дело именно с количеством объектов, а не с их описательными признаками.

Цель статистического анализа - исследование свойств случайной величины. Для этого приходится несколько раз измерять значения изучаемой случайной величины. Полученная группа значений рассматривается как выборка из гипотетической генеральной совокупности .

Производится статистическая обработка выборки, и после этого принимается решение. Важно заметить, что вследствие начального условия неопределённости притятое решение всегда носит характер "нечёткого высказывания". Иными словами, в статистической обработке приходится иметь дело с вероятностями, а не с точными утверждениями.

Главное в статистическом методе - это подсчёт числа объектов, входящих в различные группы. Объекты собираются в группу по какому-то определённому общему признаку, а затем рассмотривается распределение этих объектов в группе по количественному выражению данного признака. В статистике часто применяется выборочный метод анализа, т.е. анализируется не вся группа объектов, а небольшая выборка - несколько объектов, взятых из большой группы. Широко используется теория вероятностей при статистической оценке наблюдений и при формировании выводов.

Основным предметом математической статистики является вычисление статистик (да простит нас читатель за тавтологию), являющихся критериями для оценки достоверности априорных предположений, гипотез или выводов по существу эмпирических данных.

Другое определение - “Статистики – это предписания, по которым из выборки рассчитывается некоторое число – значение статистики для данной выборки” [Закс, 1976]. Выборочные среднее и дисперсия, отношение дисперсий двух выборок или любые другие функции от выборки могут рассматриваться как статистики .

Вычисление "статистик" - это представление "одним числом" сложного стохастического (вероятностного) процесса.

Распределение Стьюдента

Статистики также являются случайными переменными. Распределения статистик (тест-распределения) лежат в основе критериев, которые построены на этой статистике. Например, В. Госсет, работая на пивоварне Гиннеса и публикуясь под псевдонимом “Стьюдент”, в 1908 г. доказал очень полезные свойства распределения отношения разности между выборочным средним и средним значением генеральной совокупности () к стандартной ошибке среднего значения генеральной совокупности , или t –статистики (распределение Стьюдента ):

. (5.7)

Распределение Стьюдента по форме при некоторых условиях приближается к нормальному .

Другими двумя важными распределениями выборочных статистик является c 2 -распределение и F -распределение , широко используемые в ряде разделов статистики для проверки статистических гипотез.

Итак, предмет математической статистики составляет формальная количественная сторона исследуемых объектов, безразличная к специфической природе самих изучаемых объектов.

По этой причине в приводимых здесь примерах речь идёт о группах данных, о числах, а не о конкретных измеряемых вещах. И поэтому по образцам расчётов, данных здесь, вы можете рассчитывать свои данные, полученные на самых разных объектах.

Главное - подобрать подходящий для ваших данных метод статистической обработки .

В зависимости от конкретных результатов наблюдений математическая статистика делится на несколько разделов.

Разделы математической статистики

        Статистика чисел.

        Многомерный статистический анализ.

        Анализ функций (процессов) и временных рядов.

        Статистика объектов нечисловой природы.

В современной науке считается, что любая область исследований не может быть настоящей наукой до тех пор, пока в неё не проникнет математика. В этом смысле математическая статистика является полномочным представителем математики в любой другой науке и обеспечивает научный подход к исследованиям. Можно сказать, что научный подход начинается там, где в исследовании появляется математическая статистика. Вот почему математическая статистика так важна для любого современного исследователя.

Хотите быть настоящим современным исследователем - изучайте и применяйте в своей работе математическую статистику!

Статистика с необходимостью появляется там, где происходит переход от единичного наблюдения к множественному. Если у вас имеется множество наблюдений, замеров и данных - то без математической статистики вам не обойтись.

Математическую статистику подразделяют на теоретическую и прикладную.

Теоретическая статистика доказывает научность и правильность самой статистики.

Теоретическая математи ческая статистика - наука, изучающая методы раскрытия закономерностей, свойственных большим совокупностям однородных объектов, на основании их выборочного обследования.

Этим разделом статистики занимаются математики, и они любят с помощь своих теоретических математических доказательств убеждать нас в том, что статистика сама по себе научна и ей можно доверять. Беда в том, что эти доказательства способны понять только другие математики, а обычным людям, которым нужно пользоваться математической статистикой эти доказательства всё равно не доступны, да и совершенно не нужны!

Вывод: Если вы не математик, то не тратьте зря свои силы на понимание теоретических выкладок по поводу математической статистики. Изучайте собственно статистические методы, а не их математические обоснования.

Прикладная статистика учит пользователей работать с любыми данными и получать обобщённые результаты. Неважно, какие именно это данные, важно, какое количество этих данных находится в вашем распоряжении. Кроме того, прикладная статистика подскажет нам, насколько можно верить в то, что полученные результаты отражают действительное положение дел.

Для разных дисциплин в прикладной статистике используют различные наборы конкретных методов. Поэтому различают следующие разделы прикладной статистики: биологическая, психологическая, экономическая и другие. Они отличаются друг от друга комплектацией примеров и приемов, а также излюбленными методами вычислений.

Можно привести следующий пример различий между применением прикладной статистики для разных дисциплин. Так, статистическое изучение режима турбулентных водных потоков производится на основе теории стационарных случайных процессов. Однако применение той же теории к анализу экономических временных рядов может привести к грубым ошибкам ввиду того, что допущение того, что распределение вероятностей сохраняется неизменным в этом случае, как правило, совершенно неприемлемо. Следовательно, для этих разных дисциплин потребуются разные статистические методы.

Итак, математическую статистику должен применять в своих исследованиях любой современный учёный. Даже тот учёный, который работает в направлениях, которые весьма далеки от математики. И он должен уметь применять прикладную статискику к своим данным, даже не зная её.

© Сазонов В.Ф., 2009.

Введение

2. Основные понятия математической статистики

2.1 Основные понятия выборочного метода

2.2 Выборочное распределение

2.3 Эмпирическая функция распределения, гистограмма

Заключение

Список литературы

Введение

Математическая статистика - наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надежность и точность выводов, делаемых на основании ограниченного статистического материала (напр., оценить необходимый объем выборки для получения результатов требуемой точности при выборочном обследовании).

В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей - свойства и взаимосвязи этих величин (распределений).

Но часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента. Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях.

При этом возникают, например, следующие вопросы: Если мы наблюдаем одну случайную величину - как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении?

Примером такой серии экспериментов может служить социологический опрос, набор экономических показателей или, наконец, последовательность гербов и решек при тысячекратном подбрасывании монеты.

Все вышеприведенные факторы обуславливают актуальность и значимость тематики работы на современном этапе, направленной на глубокое и всестороннее изучение основных понятий математической статистики.

В связи с этим целью данной работы является систематизация, накопление и закрепление знаний о понятиях математической статистики.

1. Предмет и методы математической статистики

Математическая статистика - наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов). В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях. Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.

Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Разработка методов аппроксимации данных и сокращения размерности описания была начата более 100 лет назад, когда К. Пирсон создал метод главных компонент. Позднее были разработаны факторный анализ и многочисленные нелинейные обобщения.

Различные методы построения (кластер-анализ), анализа и использования (дискриминантный анализ) классификаций (типологий) именуют также методами распознавания образов (с учителем и без), автоматической классификации и др.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

Основные понятия математической статистики

2.1 Основные понятия выборочного метода

Пусть - случайная величина, наблюдаемая в случайном эксперименте. Предполагается, что вероятностное пространство задано (и не будет нас интересовать).

Будем считать, что, проведя раз этот эксперимент в одинаковых условиях, мы получили числа , , , - значения этой случайной величины в первом, втором, и т.д. экспериментах. Случайная величина имеет некоторое распределение , которое нам частично или полностью неизвестно.

Рассмотрим подробнее набор , называемый выборкой .

В серии уже произведенных экспериментов выборка - это набор чисел. Но если эту серию экспериментов повторить еще раз, то вместо этого набора мы получим новый набор чисел. Вместо числа появится другое число - одно из значений случайной величины . То есть (и , и , и т.д.) - переменная величина, которая может принимать те же значения, что и случайная величина , и так же часто (с теми же вероятностями). Поэтому до опыта - случайная величина, одинаково распределенная с , а после опыта - число, которое мы наблюдаем в данном первом эксперименте, т.е. одно из возможных значений случайной величины .

Выборка объема - это набор из независимых и одинаково распределенных случайных величин («копий »), имеющих, как и , распределение .

Что значит «по выборке сделать вывод о распределении»? Распределение характеризуется функцией распределения, плотностью или таблицей, набором числовых характеристик - , , и т.д. По выборке нужно уметь строить приближения для всех этих характеристик.

.2 Выборочное распределение

Рассмотрим реализацию выборки на одном элементарном исходе - набор чисел , , . На подходящем вероятностном пространстве введем случайную величину , принимающую значения , , с вероятностями по (если какие-то из значений совпали, сложим вероятности соответствующее число раз). Таблица распределения вероятностей и функция распределения случайной величины выглядят так:

Распределение величины называют эмпирическим или выборочным распределением. Вычислим математическое ожидание и дисперсию величины и введем обозначения для этих величин:

Точно так же вычислим и момент порядка

В общем случае обозначим через величину

Если при построении всех введенных нами характеристик считать выборку , , набором случайных величин, то и сами эти характеристики - , , , , - станут величинами случайными. Эти характеристики выборочного распределения используют для оценки (приближения) соответствующих неизвестных характеристик истинного распределения.

Причина использования характеристик распределения для оценки характеристик истинного распределения (или ) - в близости этих распределений при больших .

Рассмотрим, для примера, подбрасываний правильного кубика. Пусть - количество очков, выпавших при -м броске, . Предположим, что единица в выборке встретится раз, двойка - раз и т.д. Тогда случайная величина будет принимать значения 1 , , 6 с вероятностями , , соответственно. Но эти пропорции с ростом приближаются к согласно закону больших чисел. То есть распределение величины в некотором смысле сближается с истинным распределением числа очков, выпадающих при подбрасывании правильного кубика.

Мы не станем уточнять, что имеется в виду под близостью выборочного и истинного распределений. В следующих параграфах мы подробнее познакомимся с каждой из введенных выше характеристик и исследуем ее свойства, в том числе ее поведение с ростом объема выборки.

.3 Эмпирическая функция распределения, гистограмма

Поскольку неизвестное распределение можно описать, например, его функцией распределения , построим по выборке «оценку» для этой функции.

Определение 1.

Эмпирической функцией распределения, построенной по выборке объема , называется случайная функция , при каждом равная

Напоминание: Случайная функция

называется индикатором события . При каждом это - случайная величина, имеющая распределение Бернулли с параметром . почему?

Иначе говоря, при любом значение , равное истинной вероятности случайной величине быть меньше , оценивается долей элементов выборки, меньших .

Если элементы выборки , , упорядочить по возрастанию (на каждом элементарном исходе), получится новый набор случайных величин, называемый вариационным рядом :

Элемент , , называется -м членом вариационного ряда или -й порядковой статистикой .

Пример 1.

Выборка:

Вариационный ряд:

Рис. 1. Пример 1

Эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке равна , где - количество элементов выборки, совпадающих с .

Можно построить эмпирическую функцию распределения по вариационному ряду:

Другой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных). Эмпирическим, или выборочным аналогом таблицы или плотности является так называемая гистограмма .

Гистограмма строится по группированным данным. Предполагаемую область значений случайной величины (или область выборочных данных) делят независимо от выборки на некоторое количество интервалов (не обязательно одинаковых). Пусть , , - интервалы на прямой, называемые интервалами группировки . Обозначим для через число элементов выборки, попавших в интервал :

(1)

На каждом из интервалов строят прямоугольник, площадь которого пропорциональна . Общая площадь всех прямоугольников должна равняться единице. Пусть - длина интервала . Высота прямоугольника над равна

Полученная фигура называется гистограммой.

Пример 2.

Имеется вариационный ряд (см. пример 1):

Здесь - десятичный логарифм, поэтому , т.е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1. Заметим, что чем больше интервалов группировки, тем лучше. Но, если брать число интервалов, скажем, порядка , то с ростом гистограмма не будет приближаться к плотности.

Справедливо следующее утверждение:

Если плотность распределения элементов выборки является непрерывной функцией, то при так, что , имеет место поточечная сходимость по вероятности гистограммы к плотности.

Так что выбор логарифма разумен, но не является единственно возможным.

Заключение

Математическая (или теоретическая) статистика опирается на методы и понятия теории вероятностей, но решает в каком-то смысле обратные задачи.

Если мы наблюдаем одновременно проявление двух (или более) признаков, т.е. имеем набор значений нескольких случайных величин - что можно сказать об их зависимости? Есть она или нет? А если есть, то какова эта зависимость?

Часто бывает возможно высказать некие предположения о распределении, спрятанном в «черном ящике», или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы. Наиболее благоприятной для исследования оказывается ситуация, когда можно уверенно утверждать о некоторых свойствах наблюдаемого эксперимента - например, о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличии у распределения плотности или о его дискретном характере, и т.д.

Итак, о (математической) статистике имеет смысл вспоминать, если

· имеется случайный эксперимент, свойства которого частично или полностью неизвестны,

· мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше - какое угодно) число раз.

Список литературы

1. Баумоль У. Экономическая теория и исследование операций. – М.; Наука, 1999.

2. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1995.

3. Боровков А.А. Математическая статистика. М.: Наука, 1994.

4. Корн Г., Корн Т. Справочник по математике для научных работников и инженеров. - СПБ: Издательство «Лань», 2003.

5. Коршунов Д.А., Чернова Н.И. Сборник задач и упражнений по математической статистике. Новосибирск: Изд-во Института математики им. С.Л.Соболева СО РАН, 2001.

6. Пехелецкий И.Д. Математика: учебник для студентов. - М.: Академия, 2003.

7. Суходольский В.Г. Лекции по высшей математике для гуманитариев. - СПБ Издательство Санкт-петербургского государственного университета. 2003

8. Феллер В. Введение в теорию вероятностей и ее приложения. - М.: Мир, Т.2, 1984.

9. Харман Г., Современный факторный анализ. - М.: Статистика, 1972.


Харман Г., Современный факторный анализ. - М.: Статистика, 1972.

English: Wikipedia is making the site more secure. You are using an old web browser that will not be able to connect to Wikipedia in the future. Please update your device or contact your IT administrator.

中文: 维基百科正在使网站更加安全。您正在使用旧的浏览器,这在将来无法连接维基百科。请更新您的设备或联络您的IT管理员。以下提供更长,更具技术性的更新(仅英语)。

Español: Wikipedia está haciendo el sitio más seguro. Usted está utilizando un navegador web viejo que no será capaz de conectarse a Wikipedia en el futuro. Actualice su dispositivo o contacte a su administrador informático. Más abajo hay una actualización más larga y más técnica en inglés.

ﺎﻠﻋﺮﺒﻳﺓ: ويكيبيديا تسعى لتأمين الموقع أكثر من ذي قبل. أنت تستخدم متصفح وب قديم لن يتمكن من الاتصال بموقع ويكيبيديا في المستقبل. يرجى تحديث جهازك أو الاتصال بغداري تقنية المعلومات الخاص بك. يوجد تحديث فني أطول ومغرق في التقنية باللغة الإنجليزية تاليا.

Français: Wikipédia va bientôt augmenter la sécurité de son site. Vous utilisez actuellement un navigateur web ancien, qui ne pourra plus se connecter à Wikipédia lorsque ce sera fait. Merci de mettre à jour votre appareil ou de contacter votre administrateur informatique à cette fin. Des informations supplémentaires plus techniques et en anglais sont disponibles ci-dessous.

日本語: ウィキペディアではサイトのセキュリティを高めています。ご利用のブラウザはバージョンが古く、今後、ウィキペディアに接続できなくなる可能性があります。デバイスを更新するか、IT管理者にご相談ください。技術面の詳しい更新情報は以下に英語で提供しています。

Deutsch: Wikipedia erhöht die Sicherheit der Webseite. Du benutzt einen alten Webbrowser, der in Zukunft nicht mehr auf Wikipedia zugreifen können wird. Bitte aktualisiere dein Gerät oder sprich deinen IT-Administrator an. Ausführlichere (und technisch detailliertere) Hinweise findest Du unten in englischer Sprache.

Italiano: Wikipedia sta rendendo il sito più sicuro. Stai usando un browser web che non sarà in grado di connettersi a Wikipedia in futuro. Per favore, aggiorna il tuo dispositivo o contatta il tuo amministratore informatico. Più in basso è disponibile un aggiornamento più dettagliato e tecnico in inglese.

Magyar: Biztonságosabb lesz a Wikipédia. A böngésző, amit használsz, nem lesz képes kapcsolódni a jövőben. Használj modernebb szoftvert vagy jelezd a problémát a rendszergazdádnak. Alább olvashatod a részletesebb magyarázatot (angolul).

Svenska: Wikipedia gör sidan mer säker. Du använder en äldre webbläsare som inte kommer att kunna läsa Wikipedia i framtiden. Uppdatera din enhet eller kontakta din IT-administratör. Det finns en längre och mer teknisk förklaring på engelska längre ned.

हिन्दी: विकिपीडिया साइट को और अधिक सुरक्षित बना रहा है। आप एक पुराने वेब ब्राउज़र का उपयोग कर रहे हैं जो भविष्य में विकिपीडिया से कनेक्ट नहीं हो पाएगा। कृपया अपना डिवाइस अपडेट करें या अपने आईटी व्यवस्थापक से संपर्क करें। नीचे अंग्रेजी में एक लंबा और अधिक तकनीकी अद्यतन है।

We are removing support for insecure TLS protocol versions, specifically TLSv1.0 and TLSv1.1, which your browser software relies on to connect to our sites. This is usually caused by outdated browsers, or older Android smartphones. Or it could be interference from corporate or personal "Web Security" software, which actually downgrades connection security.

You must upgrade your web browser or otherwise fix this issue to access our sites. This message will remain until Jan 1, 2020. After that date, your browser will not be able to establish a connection to our servers.

Вверх