Лабораторная работа 9. Статистический анализ данных

Задание на лабораторную работу

Цель работы: освоить технологии бизнес-анализа данных в Excel, используя функции пакета Анализ данных и некоторые статистические функции

Задание 1

  1. С помощью Мастера диаграмм построить графики месячной выручки всех магазинов на протяжении всего года.
  2. Используя функцию СУММ, подсчитать суммарную выручку каждого магазина за год и суммарную выручку в каждом месяце.
  3. Задать значение плановой годовой выручки и с помощью функции СЧЕТЕСЛИ подсчитать, сколько магазинов перевыполнили план за год.
  4. Используя функцию СРЗНАЧ, подсчитать среднюю ежемесячную выручку всех магазинов и среднюю выручку каждого магазина за год.
  5. Используя функцию РАНГ, подсчитать место каждого магазина по объему продаж за год.


Синтаксис этой функции:

РАНГ(число;ссылка;порядок)

Число – это число в массиве, для которого определяется ранг.

Ссылка – это массив чисел, которые необходимо ранжировать. Нечисловые значения в массиве игнорируются.

Порядок определяет способ упорядочения. Если порядок равен нулю или опущен, то ранг числа определяется по убыванию (наибольшему числу – первое место), если порядок – любое ненулевое число, то ранг числа определяется по возрастанию (наименьшему значению – первое место).

  1. Используя функцию ПРОЦЕНТРАНГ, оценить для каждого магазина, какова доля значений месячных выручек, не превосходящих значение 2000 тыс. руб.

Синтаксис функции:

ПРОЦЕНТРАНГ(массив;x;разрядность)

Массив – это массив или интервал данных с численными значениями, для которых определяют относительное положение.

х – это значение, для которого определяется процентное содержание.

Разрядность – необязательный аргумент, определяющий количество значащих цифр в возвращаемой величине процентного содержания значения. По умолчанию равен трем.

  1. Найти медианы и первые квартили массивов месячных выручек каждого магазина.

Медиана – это число, которое является серединой множества чисел, то есть половина чисел имеют значения большие, чем медиана, а половина чисел имеют значения меньшие, чем медиана. Медиану заданных чисел возвращает функция МЕДИАНА.

Ее синтаксис:

МЕДИАНА(число1;число2; …)

Число1, число2, … – это от 1 до 30 чисел, для которых определяется медиана. Аргументы должны быть числами или именами, массивами или ссылками, содержащими числа. Excel проверяет все числа, содержащиеся в аргументах, которые являются массивами или ссылками. Если аргумент, который является массивом или ссылкой, содержит тексты, логические значения или пустые ячейки, то такие значения игнорируются; но ячейки, которые содержат нулевые значения, учитываются.

Для нахождения медианы (и других показателей ранжирования) также можно использовать функции КВАРТИЛЬ или ПЕРСЕНТИЛЬ. Квартиль – это значения признака, делящего данный ряд на 4, а персентиль – на 100 равных частей.

Синтаксис функций:

КВАРТИЛЬ(массив;к)

Массив – это массив или интервал ячеек с числовыми значениями, для которых определяется значения квартилей.

Если аргумент к=0, то функция возвращает минимальное значение (т.е. работает аналогично функции МИН); если к=1, то функция возвращает первую квартиль; если к=2, то функция возвращает медиану массива (т.е. работает аналогично функции МЕДИАНА); если к=3, то функция возвращает третью квартиль; если к=4, то функция возвращает максимальное значение (т.е. работает аналогично функции МАКС).

ПЕРСЕНТИЛЬ(массив;часть)

Массив – это массив или интервал данных с численными значениями, для которых определяется значения персентилей.

Часть – это значение персентили в интервале от 0 до 1 включительно. Например, 0,5-ая персентиль дает значение медианы, 0,75-ая персентиль дает значение третьей квартили и т.п.

  1. С помощью пакета сервисных программ Анализ данных (команда Ранг и персентиль) найти порядковый и процентный ранги для каждого значения в массиве месячных выручек каждого магазина. Эта процедура применяется для анализа относительного взаиморасположения данных в наборе.

Выходная таблица содержит столбцы:

  • порядковый номер числа в наборе  исходных данных;
  • столбец исходных данных, расположенных в порядке возрастания номера ранга и убывания значения данных;
  • ранг числа;
  • значение процентранга.

Используя функцию ПЕРСЕНТИЛЬ, вычислить значение персентиля для одного из значений процентранга из полученной таблицы и сравнить с соответствующим значением из столбца исходных данных.

  1. С помощью пакета сервисных программ Анализ данных (команда Описательная статистика) получить таблицу статистики для массивов месячных выручек каждого магазина (ее примерный вид соответствует таблице 9.1) и прокомментировать полученные результаты, используя ваши знания статистики и справочную систему Excel по статистическим функциям.

Найти эти же данные с помощью встроенных функций из категории Статистические.

  1. 10.  Подсчитать для множества суммарных годовых выручек магазинов, сколько значений попадает в интервалы от 0 до 5000, от 5001 до 10000, от 10001 до 15000, от 15001 до 20000 тыс. руб., а также свыше 20000 тыс. руб., используя функцию ЧАСТОТА.

Синтаксис этой функции:

ЧАСТОТА(массив_данных;массив_карманов)

Массив_данных – это массив чисел, для которых вычисляются частоты. Если массив_данных не содержит значений, то функция ЧАСТОТА возвращает массив нулей.

Массив_карманов – это массив правых концов тех интервалов, в которых группируются значения аргумента массив_данных.

 

Таблица 9.1 Таблица описательной статистики

Маг 1
Среднее 1865,95
Стандартная ошибка 263,24
Медиана 1993,33
Мода #Н/Д
Стандартное отклонение 911,90
Дисперсия выборки 831563,32
Эксцесс -1,17
Асимметричность -0,20
Интервал 2693,80
Минимум 500,00
Максимум 3193,80
Сумма 22391,42
Счет 12

Функция ЧАСТОТА возвращает распределение частот в виде вертикального массива, причем количество элементов в возвращаемом массиве на единицу больше числа элементов в массив_карманов. Дополнительный элемент в возвращаемом массиве содержит количество значений, больших чем максимальное значение в интервалах. Для работы с этой функцией необходимо сначала выделить область, куда попадут результаты вычисления, а после задания исходных данных в поле функции выйти не как обычно, нажатием клавиши Enter или кнопки ОК, а нажатием клавиш Ctrl + Shift + Enter (см. также лабораторную работу 4).

  1. 11.  Вычислить эти же частоты с помощью пакета сервисных программ Анализ данных (команда Гистограмма) (рис. 9.2), где поля Входной интервал и Интервал карманов соответствуют аргументам Массив_данных и Массив_карманов функции ЧАСТОТА. Построить гистограмму ЧАСТОТА (ОБЪЕМ РЕАЛИЗАЦИИ). Проанализировать характер поведения графика Интегральный процент.
  2. 12.  Выбрав из меню Анализа данных команду Корреляция, получить коэффициенты корреляции выручки трех любых магазинов (попарно) за весь год (рис. 9.3). Сделать выводы.

О хорошей корреляции говорят значения К, по модулю близкие к единице. Знак «+» соответствует прямой взаимосвязи, знак «-» – обратной.

Коэффициенты корреляции можно также найти с помощью функции КОРРЕЛ, входящей в категорию Статистические.

13. С помощью пакета сервисных программ Анализ данных (команда Регрессия) (рис. 9.4), выполнить линейный регрессионный анализ итоговой выручки магазинов в зависимости от выручки каждого магазина. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных.

В результате на листе Excel формируется пять таблиц: таблица регрессионной статистики (оценка корреляционной связи), таблица дисперсионного анализа (оценка правомерности модели линейной регрессии), таблица параметров модели и их статистических оценок, таблица расчетных значений по модели регрессии, значений остатков (разность статистических и расчетных регрессионных значений) и таблица персентилей.

По желанию могут быть выведены три графика:

остатки как функция независимой переменной;

сопоставление значений по регрессионной модели с данными статистики;

расчетные значения как функция значений персентиля (график нормального распределения).

Сделать выводы о правомерности модели линейной регрессии и записать ее уравнение.

Получить уравнение линейной регрессии с помощью функции ЛИНЕЙН.

Синтаксис функции:

ЛИНЕЙН(массив_У; массив_Х;константа;статистика)

массив_У – значения исследуемой статистической функции;

массив_Х – соответствующие значения независимой переменной;

константа – ИСТИНА (по умолчанию) для вычисления b в уравнении линейной регрессии у=а1х12х2+…+аnхn+b или ЛОЖЬ для b=0;

статистика – ИСТИНА для вывода регрессионной статистики.

Эта функция возвращает массив значений, поэтому прежде чем к ней обращаться, необходимо выделить массив ячеек размером (n+1) ´ 5, где n – число независимых переменных.

Если независимая переменная одна, то при значении аргумента статистика равным ЛОЖЬ, достаточно указать две ячейки (в одной строке!), где окажутся коэффициенты а и b линейной регрессии. Если значение аргумента статистика равно ИСТИНА, то следует указать 10 ячеек (массив 2´5). В первой строке окажутся коэффициенты а и b, во второй – стандартные значения ошибок для коэффициентов а и b, в третьей – коэффициент детерминации и стандартная ошибка для оценки функции, в четвертой – F-статистика (для оценки взаимосвязи зависимой и независимой переменной) и число степеней свободы (для определения уровня надежности регрессионной модели), в пятой – регрессионная сумма квадратов и остаточная сумма квадратов.

Если вы хотите купить данную работу, то заполните, пожалуйста, всплывающую форму. В поле «Сообщение» укажите удобный для вас способ оплаты. Реквизиты для оплаты выбранного вами товара сообщит наш менеджер в ответном письме.
После оплаты работа будет прислана на указанный вами email адрес.

Tags: