Теория Обучение Литература Статьи Лучшие брокеры Forex

КАЧЕСТВО ДАННЫХ

Плохие данные могут привести любой анализ в состояние полного хаоса, дать потенциально убыточные заключения и привести к потере драгоценного времени. Поэтому для проведения тестов требуется применять только лучшие из доступных данных. Некоторые прогностические системы, например основанные на нейронных сетях, могут быть чрезвычайно чувствительны к нескольким отклонениями, ошибочным данным; в таких случаях необходимость в чистых данных особенно высока. Время, потраченное на поиск и окончательную чистку хороших данных, не будет потеряно.

Ошибки данных принимают много различных форм, и некоторые из них весьма заметны. При торговле в реальном времени порой попадаются тики с откровенно ошибочными, попросту невозможными ценами. В течение секунды индекс S&P 500 может «упасть» с уровня 952,00 до 250,50! Это что — гигантский обвал рынка? Нет: спустя пару секунд в следующем тике индекс опять будет на уровне 952,00 или где-то рядом. Что случилось? Плохой тик — «шумовой выброс» в данных. Такие ошибки, если они не будут обнаружены и исправлены, могут погубить результаты самой лучшей механической торговой модели. Более опасны, хотя чаще встречаются и труднее обнаруживаются, обычные мелкие ошибки в уровнях цен и других показателях, попадающих к трейдеру от поставщиков данных. Лучшие из поставщиков неоднократно проверяют свои данные и сообщают о поправках в случае обнаружения ошибок. Например, почти каждый день Pinnacle Data автоматически сообщает о программных коррекциях ошибок. Многие из этих мелких обычных ошибок не очень опасны для тестирования систем, но заранее этого знать нельзя.

В зависимости от чувствительности испытываемой торговой или прогностической модели и таких факторов, как доступность программ для проверки данных, может иметь смысл проводить различные статистические исследования для поиска подозрительных данных. Для обнаружения этих точек, или выбросов, как их иногда называют статистики, существует ряд методов. Порой встречаются пропущенные, лишние и несоответствующие рыночным реалиям точки данных; их следует находить и корректировать. Как пример проверки данных, в табл. 1-1 и 1-2 приведены случаи обработки данных с помощью программы, ищущей выбросы, пропуски и ошибочные значения.

Табл. 1-1 изображает результат программы, проверявшей данные по непрерывным фьючерсам на индекс S&P 500 (дневные данные от Pinnacle Data Corporation (800-724-4903)). Программа не обнаружила неадекватных цен или объемов в этом наборе данных; не было примеров максимальной цены, меньшей, чем цена закрытия, минимальной, большей, чем цена открытия, отрицательного объема и других ложных данных. Два дня, впрочем, имели подозрительно высокие значения: один — на 10/19/87 (в отчете 871019), а другой — на 10/13/89. Аномальное значение на 10/19/87 не представляет собой ошибки, а связано с волатильностью, вызванной крупным падением рынка; значение на 10/13/89 также не является ошибкой, а связано с так называемым юбилейным эффектом. Поскольку эти два значения не были ошибочными, коррекции не потребовалось. При этом наличие таких значений в данных должно привлечь внимание к тому факту, что на рынке случаются события, когда изменения цены достигают экстремальных пропорций, и система должна быть способна справляться с такими случаями. Все значения в табл. 1-1 стандартизованы, т.е. вычислены путем деления ценового интервала данного дня на усредненный интервал 20 предыдущих дней. Как часто бывает с рыночными данными, распределение таких стандартизованных показателей более «растянуто», чем можно было бы ожидать при нормальном распределении, но, тем не менее, статистически события 10/19/87 и 10/13/89 — исключения. Во всех остальных случаях распределение давало упорядоченную картину: стандартизованные данные изменялись от 0 до 7 и лишь в отдельных случаях превышали 10.

Утилита также пометила 5 дней, как имеющие сильные отклонения цены закрытия. Как и ценовой диапазон дня, отклонение измерялось в виде распределения значений, с использованием стандартизованного соотношения цен закрытия. В данном случае стандартизованное соотношение вычислялось путем деления абсолютного значения разности цены закрытия и предшествующей цены на среднее от 20 предыдущих таких разностей.

При исключении 5 дней с наибольшими отклонениями наблюдается подобное растянутое распределение изменений цен закрытия от 0 до 7 стандартизованных единиц. Значения, близкие к отклонению, равному 8, отмечались три раза, а значения 10 — только два раза. Рассмотрение данных торговых дней показывает, что в них имела место аномальная активность рынка, а не ошибка. Неудивительно, что два из пяти помеченных дней — те же самые, что выделялись при рассмотрении величины дневного диапазона цен. В конце концов программа не обнаружила пропущенных дней, данных, приходящихся на нерабочие дни, а также данных с повторными или перепутанными датами. Единственные проблемные моменты являются следствием аномалии рынка, а не ошибок. В общем набор данных по S&P можно считать чрезвычайно чистым, что и неудивительно, зная о высокой репутации поставщика — Pinnacle Data Corporation.

Как пример низкого качества данных рассмотрим последовательность котировок компании Apple Computer (AAPL), полученных авторами от одного знакомого. Результаты проверки приведены в табл. 1-2.

В отличие от предыдущей выборки, здесь данные за два дня были помечены как имеющие необъяснимые логические ошибки. В одном случае цена открытия равнялась нулю и была ниже минимальной цены. В другом случае обнаружилась аномальная величина дневного диапазона цен (что может быть как ошибкой, так и последствием аномальной торговли). В нескольких случаях отмечалось сильное отклонение цены закрытия, возможно ввиду нескорректированных дроблений акций. Повторяющихся или перепутанных дат не обнаружено, но немало дней было пропущено. В данном случае пропущенные точки соответствуют праздникам и, следовательно, просто указывают на разный подход к работе с данными; мы обычно по ряду причин заполняем праздничные дни данными предыдущего дня. При том что последовательность включает котировки только с 1/2/97 по 11/6/98 (котировки S&P 500 — с 1/3/83 по 5/21/98), обнаружение ряда серьезных ошибок с помощью довольно простой процедуры не может не настораживать.

Суть в том, что на этих примерах показана важность приобретения качественных данных от поставщика, имеющего хорошую репутацию и ведущего серьезную работу. Это сэкономит время, обеспечит надежные, чистые данные для разработки и тестирования систем и для торговли в дальнейшем. Более глубокий обзор проблем качества данных, в том числе и то, как, собственно, создаются рыночные котировки, как их передают и хранят, можно найти у Джурика (Jurik, 1999).

Содержание Далее  


По нашей оценке, на 11.10.2018 г. лучшими брокерами являются:

• для торговли валютамиNPBFX;

• для торговли бинарными опционамиBinomo;

• для инвестирования в ПАММы и др. инструменты – Альпари;

• для торговли акциямиRoboForex Stocks (более 8700 инструментов – на счете R Trader).



Лучшие
брокеры:
        Альпари           Exness           Binomo
Кнопочка ТИЦ      Брокер «Альпари»      Брокер «Exness»      Брокер «Binomo»

Яндекс.Метрика