Построенную
таким образом вычислительную процедуру в дальнейшем будем называть алгоритмом
классификации. Сущность этого алгоритма классификации заключается в следующем.
Если эти условия выполняются, то гиперплоскость, проходящая через середину
отрезка, перпендикулярна к нему, является разделяющей.
На
практике, как известно, выборки чаще всего оказываются линейно не разделимыми
(разделяющая гиперплоскость для них отсутствует). Тем не менее исследователю
необходимо иметь достаточно хорошую гиперплоскость, которая давала бы возможно
меньшее число ошибочных классификаций. В данной работе мы искали
гиперплоскость, минимизирующую максимальное число точек, относимых
гиперплоскостью не к своему классу. Учитывая тот факт, что размерность
пространства признаков в нашей задаче является 4, а количество векторов выборки
1-го и 2-го классов составило 150, мы внесли следующие дополнительные операции
вычисления в используемый алгоритм Б. Н. Козинца.
При
каждой коррекции гиперплоскости вычисляли ее качество -максимальное число
неправильных классификаций, даваемое новой гиперплоскостью на каждом из
классов. В результате мы нашли наилучшую в этом смысле из всех гиперплоскостей,
которые строились в процессе работы алгоритма. Далее мы использовали процедуру,
которая позволяет найти наилучшую гиперплоскость на основе имеющейся. Для
каждого коэффициента указанной
гиперплоскости строили интервал, который делился на k-частей. После этого с
помощью полного перебора всех точек разбиения мы строили к5 всевозможных
гиперплоскостей и вычисляли их показатель качества (число ошибочно
классифицируемых точек). Гиперплоскость, имеющая наилучший показатель качества,
является оптимальной.
Описанные
эвристики в общем случае приводили бы к огромным затратам машинного времени.