Главная страница сайта Услуги решения задач по химии
Лекции по химии Учебник - общая химия


□ Многомерные данные составляют строки матрицы.

Для решения некоторых задач такие данные подразделяют на независимые и зависимые переменные, например при градуировке на основании спектральных данных. Для обозначения зависимых переменных используют специальный символ, например у.

Класс представляет собой множество объектов, имеющих сходные признаки. Образ объекта —это совокупность его характерных признаков. Для обработки многомерных данных не всегда требуются все объекты или все их измеренные характеристики. В то же время, некоторые данные не всегда возможно использовать в их исходном виде. Поэтому для успешного анализа многомерных данных, как правило, требуется предварительная обработка данных.

Предварительная обработка данных

Пропущенные данные, центрирование, масштабирование

В первую очередь необходимо исследовать, все ли необходимые данные имеются. В принципе, отсутствие некоторых данных не является непреодолимым препятствием. Разумеется, пропущенные данные нельзя заменять нулями. Вакансии следует заполнять или средними величинами для соответствующего столбца (строки), или, в крайнем случае, случайными величинами, распределенными в пределах размаха данных рассматриваемого столбца (строки). Отдельные признаки (столбцы) можно вообще исключить из матрицы, если они сильно коррелируют с другими признаками, избыточны или сохраняют постоянное значение для всех объектов.

Чтобы устранить смещение на постоянную величину, данные можно сдвигать вдоль координатных осей. Обычно это выполняют в виде центрирования, когда из каждого значения вычитают среднюю величину для соответствующего столбца:

Здесь индекс г обозначает номер строки, а к — столбца.

Очень часто признаки характеризуют совершенно различные свойства объектов, поэтому масштабы величин могут сильно различаться от столбца к столбцу, как с точки зрения их абсолютных значений, так и размахов (стандартных отклонений). И то, и другое искажает результаты большинства статистических многомерных методов. Для устранения этих различий данные следует масштабировать. Существуют два основных метода масштабирования — на величину размаха и на величину стандартного отклонения (автомасштабирование).

Масштабирование на величину размаха:

^гк — х*к ЗСк

(12.5-1)

Xik - Xfe(min)

0 < **fe < 1

(12.5-2)

a;fe(max) — a;fe(min)'



 

Вернуться в меню книги (стр. 501-600)

 

Если нужно решить контрольную по химии - обращайтесь к нам
Поможем быстро и качественно решить задачи по химии, выполнить контрольную работу или написать реферат. Консультируем по химии онлайн.

 

Copyright © 2007-2012 Zomber.Ru

Использование материалов сайта возможно при условии указания активной ссылки
Решить химию