Conversation with Merlin [email protected] · Wed Nov 15 2023

Перечисли способы применения контрольных карты Шухарта и их модификаций к нестационарным временным рядам с циклической и сезонной составляющими.

Контрольные карты Шухарта и их модификации являются инструментами статистического контроля, применяемыми для отслеживания изменений в процессе производства или других операциях. Для нестационарных временных рядов с циклическими и сезонными составляющими можно использовать следующие способы применения контрольных карт:

  1. Контрольные карты Шухарта для нестационарных временных рядов: Для нестационарных временных рядов с циклическими и сезонными составляющими может быть полезно применять контрольные карты Шухарта с адаптированными критериями для обнаружения отклонений. Это может включать изменение среднего значения и распределения данных в разные периоды времени.

  2. Модификации контрольных карт для учета циклических и сезонных составляющих: Модификации контрольных карт, такие как модифицированные контрольные карты Шухарта для нестационарных процессов, могут учитывать циклические и сезонные компоненты в данных, чтобы обнаруживать отклонения от ожидаемых паттернов.

  3. Интеграция внешних данных: При работе с нестационарными временными рядами можно также использовать внешние данные, такие как информацию о сезонных факторах или цикличности, для настройки критериев контрольных карт и улучшения их способности обнаруживать отклонения.

  4. Использование многофакторных моделей: Для учета циклических и сезонных составляющих можно применять многофакторные модели контроля, которые учитывют не только средние значения, но и другие характеристики временных рядов, такие как амплитуда циклов и сезонные паттерныВажно отметить, что выбор конкретного метода зависит от характеристик конкретного временного ряда и требований процесса контроля. Также рекоменуется проводить тщательный анализ данных и консультироваться со специалистами в области статистического контроля для эффективного применения контрольных карт Шухарта к нестационарным временным рядам с циклическими и сезонными составляющими.

Как используются контрольные карты Шухарта и многофакторные модели при анализе временных рядов. Перечисли все способы.

Контрольные карты Шуарта и многофакторные модели применяются для анализа временных рядов в качестве инструментов статистического контроля. Вот несколько способов их использования для анализа временных рядов:

  1. Обнаружение специальных причин изменений: Контрольные карты Шухарта используются для обнаружения специальных причин изменений в процессе, которые могут привести к отклонениям от установленных стандартов. Это может включать как крупные отклонения, так и последовательные маленькие изменения, которые могут сигнализировать о проблемах в производственном процессе.

  2. Мониторинг средних значений и разброса данных: Контрольные карты могут использоваться для отслеживания изменений в средних значениях и разбросе данных воени. Это позволяет идентифицировать изменения в процессе, которые могли бы повлиять на качество продукции или услуг.

  3. Использование многофакторных моделей для учета различных влияний: Многофакторные модели могут быть применены для учета различных факторов, влияющих на временной ряд, таких как сезонность, цикличность, внешние воздействия и другие переменные. Это позволяет более точно моделировать и анализировать временные ряды, учитывая их многофакторную природу.

  4. Определение временных тенденций и цикличности: Контрольные карты Шухарта и многофакторные модели могут использоваться для определения временных тенденций и цикличности в данных. Это помогает понять поведение процесса со временем и выявить потенциальные проблемы или возможности улучшения.

  5. Реагирование на изменения: При обнаружении отклонений от установленных стандартов с помощью контрольных карт и многофакторных моделей, можно принимать меры по устранению проблемы или внедрению улучшений в процесс.

Использование контрольных карт Шухарта и многофакторных моделей при анализе временных рядов позволяет более эффективно контролировать процессы и принимать обоснованные решения на основе статистических данных.

Как сравнивать временные ряды по их остаткам. Перечисли подходы и критерии, которые для этого используются.

Сравнение временных рядов по их остаткам является важным шагом в анализе временных рядов и может быть выполнено с использованием различных подходов и критериев. Вот несколько подходов и критериев, которые могут использоваться для сравнения временных рядов по их остаткам:

  1. Среднеквадратичная ошибка (MSE): Для сравнения временных рядов по их остаткам можно рассчитать среднеквадратичную ошибку между остатками и выбрать модель с наименьшей MSE. Этот критерий позволяет оценить точность модели в предсказании данных и выбрать модель с наименьшей среднеквадратичной ошибкой.

  2. Коэффициент детерминации (R-squared): R-квадрат предоставляет информацию о том, насколько хорошо модель соответствует данным. При сравнении временных рядов по их остаткам можно использовать R-квадрат для выбора модели, которая лучше соответствует данным.

  3. Сравнение диаграмм рассеяния остатков: Путем визуального сравнения диаграмм рассеяния остатков двух или более моделей можно оценить их распределение, гомоскедастность и возможные аномалии. Этот подход позволяет увидеть, какая модель лучше соответствует данным и имеет более равномерно распределенные остатки.

  4. Использование информационных критериев: Информационные критерии, такие как критерий Акаике (AIC) или критерий Байеса-Шварца (BIC), можно использовать для сравнения моделей на основе их качества и сложности. Модель с меньшим значением AIC или BIC считается более предпочтительной.

  5. Сравнение автокорреляционных функций остатков: При анализе временных рядов также важно учитывать автокорреляцию в остатках. Сравнение автокорреляционных функций остатков различных моделей может помочь выбрать ту модель, у которой остатки в наименьшей степени коррелированы.

Эти подходы и критерии позволяют сравнивать временные ряды по их остаткам и выбирать наиболее подходящую модель для анализа данных.

Укажи где текст не соответствует научному стилю. Аргументируй, приведи примеры. "Развитие фрода (мошеннического телекоммуникационного трафика) вызывает необходимость повышения эффективности антифрод-систем — программного обеспечения для противодействия спаму и мошенничеству. Одним из компонентов таких систем является модуль обнаружения фрода, который часто использует статистические подходы для определения в трафике аномалий, связанных с фродовыми атаками. Процесс передачи голосового трафика представляет собой нестационарный процесс с сезонной компонентой. В статье предлагается алгоритм подготовки временного ряда характеристики процесса передачи к анализу контрольными картами путем его сегментации."

В данном тексте присутствуют устаревшие термины, аналические обороты и специфичная лексика, что делает его несколько информальным для научного контекста. Вот аргументированный анализ:

  1. "Фрод (мошеннический телекоммуникационный трафик)" - Термин "фрод" является устаревшим и может быть заменен более формальным термином "мошенническая деятельность в телекоммуникационном секторе".

  2. "спам и мошенничество" - Слово "спам" обычно используется в контексте электронной почты и более формальные термины, такие как "нежелательная коммерческая корреспонденция" или "массовая нежелательная корреспонденция", могут быть более подходящими в академическом контексте.

  3. "алгорм подготовки временного ряда характеристики процесса передачи к анализу контрольными картами" - Этот оборот может быть переформулирован для большей точности и ясности, например: "алгоритм предварительной обработки временного ряда перед его анализом с использованием контрольных карт".

Пример улучшенного аналитического текста с более формальным стилем:

"Рост мошеннической деятельности в сфере телекоммуникаци требует более эффективных антифрод-систем - программного обеспечения, направленного на противодействие мошенничеству нежелательной коммерческой корреспонденции. Одним из компонентов таких систем является модуль обнаружения фрода, часто основанный на статистических методах для выявления аномалий, связанных с мошенническими атаками. Проесс передачи голосового трафика представляет собой нестацирный процесс с сезонной компонентой. Настоящая статья предлагает алгоритм предварительной обработки временного ряда перед его анализом с использованием контрольных карт для обнаружения потенциальных мошеннических схем."

Переведи на английский язык с соблюдением научного стиля: "Рост фрода (мошенничества) в сфере телекоммуникаций требует более эффективных антифрод-систем – программного обеспечения, направленного на противодействие мошенничеству и спаму. Одним из компонентов таких систем является модуль обнаружения фрода, часто основанный на статистических методах для выявления аномалий, связанных с мошенническими атаками. Процесс передачи голосового трафика представляет собой нестационарный процесс с сезонной компонентой. Настоящая статья предлагает алгоритм предварительной обработки временного ряда перед его анализом с использованием контрольных карт для обнаружения фродовых атак.".

The growth of fraud in the telecommunications industry necessitates more effective anti-fraud systems - software aimed at combating fraud and spam. One of the components of such systems is a fraud detection module, often based on statistical methods for identifying anomalies associated with fraudulent attacks. The process of voice traffic transmission represents a non-stationary process with a seasonal component. This article proposes an algorithm for preprocessing a time series prior to its analysis using control charts to detect fraudulent attacks.

Переведи заголовок научной статьи на английский язык с соблюдением научного стиля: "Сегментация временного ряда характеристики процесса передачи голосового трафика и формирование однородной выборки для мониторинга трафика контрольными картами на предмет мошенничества".

"Segmentation of Time Series Characteristics of Voice Traffic Transmission Process and Formation of Homogeneous Sample for Traffic Monitoring using Control Charts for Fraud Detection"

Переведи на английский язык с соблюдением научного стиля текста: "Рост фрода (мошенничества) в сфере телекоммуникаций требует более эффективных антифрод-систем – программного обеспечения, направленного на противодействие мошенничеству и спаму. Одним из компонентов таких систем является модуль обнаружения фрода, часто основанный на статистических методах для выявления аномалий, связанных с мошенническими атаками. Процесс передачи голосового трафика представляет собой нестационарный процесс с сезонной компонентой. Настоящая статья предлагает алгоритм предварительной обработки временного ряда перед его анализом с использованием контрольных карт для обнаружения фродовых атак.".

The growth of fraud in the telecommunications sector necessitates more effective anti-fraud systems – software aimed at combating fraud and spam. One of the components of such systems is a fraud detection module, often based on statistical methods to identify anomalies associated with fraudulent attacks. The voice traffic transmission process is a non-stationary process with a seasonal component. This article proposes an algorithm for preprocessing the time series before its analysis using control charts to detect fraudulent attacks.

Переведи на английский язык с соблюдением научного стиля: "Ключевые слова: статистическое управление процессами, контрольные карты, борьба с мошенничеством, телекоммуникации, показатель Хёрста".

Keywords: statistical process control, control charts, fraud detection, telecommunications, Hurst exponent.

Переведи на английский язык с соблюдением научного стиля: "Непрерывное развитие мошеннического телекоммуникационного трафика приводит к росту убытков операторов связи. Это приводит к необходимости совершенствования антифрод-систем (программное обеспечение для противодействия спаму и мошенничеству – фроду) и повышения качества их работы.".

The continuous growth of fraudulent telecommunications traffic leads to increased losses for communication operators. This necessitates the improvement of anti-fraud systems (software for combating spam and fraud) and enhancing their operational quality.

Переведи на английский язык с соблюдением научного стиля: "Согласно рекомендации ITU-T M.3362 Международного союза электросвязи [2] антифрод-система функционально разделена на четыре модуля. Модуль обнаружения выявляет мошенническую атаку. Модуль мониторинга производит анализ характеристик телекоммуникационного трафика, в котором обнаружена атака. Модуль предотвращения мошенничества регулирует телефонный трафик с помощью установки правил и блокирует атаку. Модуль оповещений обменивается информацией с другими организациями или клиентами антифрод-системы.".

According to the ITU-T M.3362 recommendation of the International Telecommunication Union [2], the anti-fraud system is functionally divided into four modules. The detection module identifies fraudulent attacks, while the monitoring module analyzes the characteristics of the telecommunication traffic in which the attack has been detected. The fraud prevention module regulates the telephone traffic by establishing rules and the attack. Furthermore, the notification module exchanges information with other organizations or clients of the anti-fraud system.

Переведи на английский язык с соблюдением научного стиля: "Научные исследования в основном сосредоточены на работе первых двух модулей – обнаружении и анализе трафика. Чаще всего в исследованиях [3, 4] рассматривают применение нейросетевых методов к данным ПЗВ (подробная запись о вызове, также CDR – call detail record), которые содержат подробную информацию о вызовах – время начала звонка, его длительность, номера телефонных абонентов А и Б и т. д.".

Scientific research is mainly focused on the operation of the first two modules – detection and traffic analysis. Most studies [3, 4] often examine the application of neural network methods to Call Detail Records (CDRs), which contain detailed information about calls such as the start time, duration, telephone numbers of subscribers A and B, and so on.

Переведи на английский язык с соблюдением научного стиля: "Для повышения эффективности работы модулей обнаружения и анализа можно использовать не только CDR, но и дополнительные данные, полученные путем обработки и обогащения данных. Обогащение это дополнение исходной информации новыми характеристиками при помощи заполнения пропусков в данных, улучшения качества и структуры данных, а также расчета статистических характеристик. Получение дополнительного контекста часто приводит к повышению эффективности анализа данных. При помощи контрольных карт возможно обогащение данных дополнительной информацией об изменениях в процессе передачи голосового трафика.".

To enhance the effectiveness of the detection and analysis modules, it is possible to utilize not only CDRs but also additional data obtained through data processing and enrichment. Enrichment involves supplementing the original information with new characteristics by filling in data gaps, improving the quality and structure of data, as well as calculating statistical features. Acquiring additional context often leads to improved data analysis efficiency. Control charts can facilitate data enrichment by providing additional information about changes in the voice traffic transmission process.

Переведи на английский язык с соблюдением научного стиля: "Извлечь дополнительную информацию из набора CDR можно путем агрегирования данных по временным интервалам и получения временного ряда характеристики процесса передачи голосового трафика. Традиционно в отрасли для этого используются характеристики качества ACD (англ. average call duration — средняя длительность звонков) и ASR (англ. answer seizure ratio — коэффициент полученных ответов), зафиксированные в рекомендации ITU-T E.411 [5]. Временные ряды этих характеристик обладают специфическими особенностями: циклостационарностью (цикличностью и стационарностью), асимметрией распределения и другими. Например, в источнике [6] предложена система методик статистического управления процессом, которая учитывает свойства временных рядов с асимметричным распределением значений характеристик ACD и ASR. В этом источнике отдельно исследовано влияние нормализующего свойства центральной предельной теоремы на эти характеристики с ростом объема выборки.".

Extracting additional information from a set of CDRs can be accomplished by aggregating data over time intervals and obtaining a time series of the characteristics of the voice traffic transmission. Traditionally in the industry, this involves using ACD (average call duration) and ASRanswer seizure ratio) quality metrics as recommended in ITU-T E.411 [5]. The time series of these characteristics exhibit specific features such as cyclostationarity (cyclical and stationary behavior), asymmetry in distribution, and others. For instance, in source [6], a system of statistical process control methods is proposed that takes into account the properties of time series with asymmetrically distributed values of ACD and ASR characteristics. This source separately examines the influence of the normalizing property of the central limit theorem on these characteristics as the sample size increases.

Переведи на английский язык с соблюдением научного стиля: "Перечисленные характеристики используются преимущественно при мониторинге качества связи, так как при ухудшении качества связи ответов на звонки абонентов становится меньше, а длительности звонков становятся короче. Снижение этих характеристик сигнализирует о проблемах на маршруте. Маршрут с точки зрения транзитного оператора — это путь прохождения звонка, включающий в себя клиента-оператора, отправившего запрос на установление соединения, страну абонента А, телефонную сеть в стране абонента Б и поставщика-оператора, который это соединение устанавливает. Также ACD и ASR применяются при обнаружении мошеннического трафика, так как некоторые виды этого трафика вызывают как их повышение, так и понижение. Однако часто мошеннический трафик смешан с трафиком абонентов связи и не является доминирующей частью трафика, поэтому из-за нормализующего свойства центральной предельной теоремы значения этих характеристик могут отклоняться незначительно. Подобные примеси мошеннического трафика к нормальному возможно выявлять с помощью зональных критериев Western Electrics, однако к моменту обнаружения мошеннический трафик будет идти уже не один час, что может привести к большим потерям.".

The mentioned characteristics are primarily used in monitoring communication quality, as deteriorating communication quality results in fewer call responses from subscribers and shorter call durations. A decrease in these characteristics indicates issues along the route. From the perspective a transit operator, the route is the path of call progression, encompassing the client-operator initiating the connection request, the country of subscriber A the telephone network in subscriber B's country, and the operator-provider establishing the connection. Additionally, ACD and ASR are utilized in detecting fraudulent traffic, as certain types of fraudulent traffic can cause both increases and decreases in these metrics. However, fraudulent traffic is often mixed with legitimate subscriber traffic and does not dominate the total traffic. Therefore, due to the normalizing property of the central limit theorem, the values of these characteristics may deviate slightly Such mixtures of fraudulent traffic with legitimate traffic can be identified using zone-based Western Electric criteria, but by the time fraudulent traffic is detected, it may have been ongoing for an extended period, potentially resulting in significant losses.

Переведи на английский язык с соблюдением научного стиля: "При этом мошеннический трафик не замещает, а добавляется к трафику абонентов, поэтому его появление характеризуются всплеском (резким увеличением) количества попыток в час, количества звонков в час и количества минут в час. По этой причине видится перспективным использование этих характеристик для построения контрольных карт при мониторинге процесса передачи трафика на предмет появления мошеннического трафика. Однако временные ряды значений этих характеристик так же, как и ACD и ASR, обладают цикличностью и асимметричным распределением, что также усложняет использование этих характеристик для построения контрольных карт.".

The fraudulent traffic does not replace but adds to the subscribers' traffic so its appearance is characterized by a surge (sharp increase) in the number of attempts per hour, the number of calls per hour, and the number of minutes per hour. For this reason, it seems promising to use these characteristics to construct control charts for monitoring the traffic transmission process for the emergence of fraudulent traffic. However, the time series of these characteristics, as well as ACD and ASR, exhibit cyclical patterns and asymmetric distribution, which also complicates the use of these characteristics for constructing control charts.

Переведи на английский язык с соблюдением научного стиля: "Нужно учитывать, что для эффективного применения контрольных карт требуется обеспечить однородность данных таким образом, чтобы на их вариацию воздействовали одинаковые случайные причины [7, 8]. Среди полей CDR необходимо выделить набор параметров, которые разделят все CDR на выборки с однородными данными. В качестве такого набора предлагается использовать маршрут. В одну выборку будут объединяться CDR с одинаковыми: клиентом-оператором, страной абонента А, телефонной сетью в стране абонента Б и поставщиком-оператором. На рисунке 1 изображены графики временного ряда характеристики процесса передачи голосового трафика. На графиках видно как меняется количество звонков в зависимости от времени суток и дней недели у разных маршрутов.".

It is important to consider that for the effective application of control charts, it is necessary to ensure the homogeneity of the data in such a way that their variation is influenced by the same random causes [7, 8]. Among the fields of Call Detail Records (CDRs), it is necessary to identify a set of parameters that will divide all CDRs into samples with homogeneous data. It is proposed to use the route as such a set. CDRs with the same client-operator, country of subscriber A, telephone network in the country of subscriber B, and operator-provider will be combined into one sample. Figure 1 shows the time series plots of the characteristic of the voice traffic transmission process. The graphs illustrate how the number of calls changes depending on the time of day and day of the week for different routes.

Переведи на английский язык с соблюдением научного стиля: "Рисунок 1. Графики временного ряда характеристики процесса передачи голосового трафика для маршрутов: а) с трафиком обычных абонентов, б) с трафиком компаний и колл-центров, в) и г) с трафиком автоматизированных систем, например, тестирования качества маршрута".

Figure 1. Time series plots of the characteristic of the voice traffic transmission process for routes: a) with regular subscriber traffic, b) with traffic from companies and call centers, c) and d) with traffic from automated systems, for example, route quality testing.

Переведи на английский язык с соблюдением научного стиля: "В данной статье будет рассматриваться применение контрольных карт для выявления мошеннического трафика на примере временного ряда характеристики количества звонков в час, передаваемого по маршруту. Чаще всего этот временной ряд цикличен и нестационарен — в зависимости от времени суток значения временного ряда могут иметь сезонную составляющую, а математическое ожидание и дисперсия значений временного ряда могут отличаться для разных суток. Цикличность временного ряда обуславливается часовыми поясами абонентов А и Б, у которых часто разное время дня, а изменчивость обуславливается различной активностью абонентов в разные дни недели. В рабочие, выходные и праздничные дни на одних маршрутах наблюдается увеличение количества трафика, а на других — его уменьшение. Также к изменению количества трафика приводит изменение пропускной способности маршрута со стороны клиента-оператора или поставщика-оператора, такое изменение может произойти резко и в любое время суток. Для временного ряда характеристики количества звонков в час распределение значений асимметрично и также изменчиво.".

This article will examine the application of control charts for detecting fraudulent traffic using the example of a time series of the characteristic of the number of calls per hour transmitted via a specific route. This time series is often cyclical and non-stationary. Depending on the time of day, the values of the time series may exhibit a seasonal component, and the mean and variance of the time series values may differ for different times of day. The cyclical nature of the time series is influenced by the time zones of subscribers A and B, who often have different times of day, while the variability is influenced by the varying activity subscribers on different days of the week. On certain routes, an increase in traffic is observed on weekdays, weekends, and holidays, while on others, a decrease is noted. Additionally, changes in the traffic volume can result from changes in the route's bandwidth from the client-operator or provider-operator, which can occur abruptly at any time of day. The distribution of values for the time series of the number of calls per hour is asymmetric and also variable.

Переведи на английский язык с соблюдением научного стиля: "Для циклостационарных процессов (циклических и стационарных) распространенным способом построения контрольных карт является использование для расчет контрольных границ значений характеристики, отстоящих друг от друга на период (лаг). По причине нестационарности процесса передачи голосового трафика этот способ не применим в чистом виде. Для получения однородной выборки данных из значений временного ряда характеристики этого процесса потребуется брать данные за один и тот же час суток (с лагом 24) только за будние или только за выходные дни, а также потребуется исключать слишком старые данные или данные с другими вероятностными характеристиками. Такой подход приведет к уменьшению выборки, и в некоторых случаях приведет к невозможности построить контрольные карты в принципе.".

For cyclostationary processes (cyclic and stationary a common method of constructing control charts involves calculating control limits based on the characteristic values, which are spaced apart by a period (lag). However, due to the non-stationarity of the voice traffic transmission process, this method cannot be directly applied. In order to obtain a homogeneous sample of data from the characteristic values time series of this process, it will be necessary to take data for the same hour of the day (with a lag of 24) only for weekdays or only for weekends, as well as to exclude excessively old data or data with different probability characteristics. This approach will lead to a reduction in the sample size, and in some cases, may make it impossible to construct control charts at all.

Переведи на английский язык с соблюдением научного стиля: "Другой способ построения контрольных карт процессов с сезонной или циклической компонентой подразумевает предварительное устранение этой компоненты. В случае процесса передачи голосового трафика исчезнет проблема с маленьким объемом выборки для построения карты, но будет происходить объединение значений характеристики за разное время суток (например, дневной и ночной трафик). В то же время становится возможно исключить отдельные сегменты временного ряда, имеющие другой характер. В данной статье предлагается способ подготовки данных путем разбиения временного ряда на сегменты в точках, где происходит изменение его характера, с последующим объединением одинаковых по вероятностным характеристикам сегментов в выборку, по которой строится XmR-карта.".

Another method of constructing control charts for processes with a seasonal or cyclical component involves the preliminary elimination of this. In the case of voice traffic transmission process, the issue of small sample size for chart construction will disappear, but there will be a merging of characteristic values for different times of day (e.g., day and night traffic). At the same time, it becomes possible to exclude individual segments of the time series that have a different nature. This article proposes a method of data preparation by segmenting the time series at points where its nature changes, followed by combining segments with similar probability characteristics into a sample for constructing an XmR chart.

Переведи на английский язык с соблюдением научного стиля: "Алгоритм определения точек сегментации временного ряда представлен на рисунке 2. Для сегментирования предлагается выбирать точки изменения характера ряда, а для анализа поведения временного ряда и его характера использовать показатель Хёрста (метод нормированного размаха). Значение показателя Хёрста (H) связано со свойствами временного ряда. Если H>0,5, то ряд проявляет свойство персистентности, если H<0,5, то — свойство антиперсистентности, а H=0,5 соответствует временному ряду случайного процесса с независимыми приращениями и конечной дисперсией [9]. Показатель Хёрста способен реагировать на изменения сразу в нескольких характеристиках анализируемого временного ряда и позволит разбить временной ряд на сегменты в точках, в которых динамика временного ряда изменяется."

The algorithm for determining points of time series segmentation is presented in Figure 2. It is proposed to select points of change in the nature of the series for segmentation, and to analyze the behavior of the time series and its nature using the Hurst exponent (the method of normalized range). The value of the Hurst exponent (H) is associated with the properties of the time series. If H>0.5, the series exhibits persistence; if H<0.5, it exhibits anti-persistence; and H=0.5 corresponds to a time series of a random process with independent increments and finite variance [9]. The Hurst exponent is capable of reacting to changes in several characteristics of the analyzed time series simultaneously and will allow the time series to be segmented at points where the dynamics of the time series change.

Переведи на английский язык с соблюдением научного стиля: "Рисунок 2. Алгоритм определения точек сегментации временного ряда.

Для этого показатель Хёрста предлагается рассчитывать не для всего временного ряда, а для скользящего окна. В первую очередь необходимо выбрать максимально возможный размер скользящего окна, при котором будут существовать хотя бы два не пересекающихся окна, и уже после этого рассчитывать для этих окон показатель Хёрста. Например, временной ряд из 97 значений характеристики количества звонков в час (характеристика за текущий час и последние 4 суток) может быть разбит только на 66 скользящих окон по 32 значения.".

Figure 2. Algorithm for determining points of time series segmentation.

To calculate the Hurst exponent, it is suggested to use a sliding window approach rather than the entire time series. Firstly, the maximum possible size of the sliding window should be selected, ensuring the existence of at least two non-overlapping windows. Subsequently, the Hurst exponent is calculated for these windows. For instance, a time series of 97 values representing the characteristic of the number of calls per hour (the characteristic for the current hour and the past 4 days) can only be divided into 66 sliding windows with 32 values each.

Переведи на английский язык с соблюдением научного стиля: "Одним из способов оценки показателя Хёрста является нахождение зависимости нормированного размаха от размера выборки n. Для этого временной ряд длины N делится на k не пересекающихся групп значений длиной n. Обычно значения n определяются как N/2^(k-1) , где k – количество групп, но в зависимости от задачи для определения количества и размера групп может использоваться не только степень двойки. Значения n и k выбираются, исходя из размера N и минимального значения n. Например, временной ряд в скользящем окне из 32 значений можно разделить на 1 группу из 32 значений, 2 группы из 16 значений, 4 группы из 8 значений и 8 групп из 4 значений. Для каждой группы из n значений вычисляется нормированный размах R(n)/S(n) :"

One way to estimate the Hurst exponent is to find the dependence of the normalized range on the sample size n. To do this, a time series of length N is divided into k non-overlapping groups of length n. Typically, the values of n are determined as N/2^(k-1), where k is the number of groups, but depending on the task, not only powers of two can be used to determine the number and size of groups. Values of n and k are chosen based on the size of N and the minimum value of n. For example, a time series in a sliding window of 32 values can be divided into 1 group of 32 values, 2 groups of 16 values, 4 groups of 8 values, and 8 groups of 4 values. The normalized range R(n)/S(n is calculated for each group of n values.

Переведи на английский язык с соблюдением научного стиля: "Затем рассчитанные значения нормированного размаха усредняются по каждому набору из k групп с одинаковым количеством значений n. Далее полученные усредненные значения нормированного размаха ¯((R(n)/S(n) ) ) наносятся на график зависимости log[¯((R(n)/S(n) ) )] от log(n). Показатель Хёрста оценивается как коэффициент наклона уравнения линейной регрессии (линии наилучшего соответствия), найденный при помощи метода наименьших квадратов.".

Subsequently, the computed values of the normalized range are averaged for each set of k groups with the same number of values n. Then, the obtained average values of the normalized range ¯((R(n)/S(n))) are plotted on the graph of the dependence log[¯((R(n)/S(n))) ] on log(n). The Hurst exponent is estimated as the slope coefficient of the linear regression equation (the line of best fit) found using the method of least squares.

Переведи на английский язык с соблюдением научного стиля: "После оценки показателя Хёрста для каждого скользящего окна, проверяется гипотеза относительно статистической значимости разницы между показателем предпоследнего окна и показателями всех остальных скользящих окон. Для каждого из M полученных значений показателя Хёрста находится разница со значением показателя для предпоследнего (M-1)-го скользящего окна. Предпоследнее окно выбрано потому, что при расчете показателя Хёрста для последнего M-го окна используется значение характеристики количества звонков за последний час, в котором уже могут быть учтены звонки из всплеска мошеннического трафика. Далее для получения t-критерий для i-го скользящего окна полученная разница делится на стандартную ошибку оценки показателя Хёрста (SE):".

After estimating the Hurst exponent for each sliding window, a hypothesis regarding the statistical significance of the difference between the exponent of the penultimate window and the exponents of all other sliding windows is tested. For each of the M obtained values of the Hurst exponent, the difference with the value of the exponent for the penultimate (M-1)th sliding window is calculated. The penultimate window is chosen because when calculating Hurst exponent for the last Mth window, the characteristic value of the number of calls in the last hour is used, in which calls from a fraudulent traffic surge may already be accounted for. Next, to obtain the t-criterion for the i-th sliding window, the obtained difference is divided by the standard error of the Hurst exponent estimation (SE):

Переведи на английский язык с соблюдением научного стиля: "Далее производится проверка гипотезы относительно статистической значимости разницы между показателями Хёрста. Значение критерия сравнивается с критическим значением двухстороннего t-критерия Стьюдента с порогом статистической значимости 0,05. Критическое значение определяется по количеству точек, нанесенных на график зависимости log[¯((R(n)/S(n) ) )] от log(n). Если t-критерий, рассчитанный для скользящего окна, лежит внутри границ критического значения критерия, гипотеза о статистической значимости разницы между показателями Хёрста не подтверждается, и скользящее окно имеет тот же характер временного ряда, что и предпоследнее скользящее окно. Характер временного ряда скользящих окон, у которых t-критерий вышел за границы критического значения, отличен от характера временного ряда внутри предпоследнего скользящего окна. Середина каждого скользящего окна, для которого t-критерий вышел за границы, является возможной точкой сегментации.".

Subsequently, a hypothesis regarding the statistical significance the difference between the Hurst exponents is tested. The value of the criterion is compared to the critical value of the two-tailed t-test with a significance level of 0.05. The critical value is determined based on the number of points plotted on the graph of the dependence log[¯((R(n)/S(n))) ] on log(n). If the t-criterion calculated for the sliding window lies within the boundaries of the critical value, the hypothesis of the statistical significance of the difference between the Hurst exponents is not confirmed, and the sliding window exhibits a similar time series characteristic as the penultimate. The time series characteristic of the sliding windows, for which the-criterion exceeds the critical value, differs from the time series characteristic within the penultimate sliding window. The midpoint of each sliding window, for which the t-criterion exceeds the critical value, is considered a potential segmentation point.

Переведи на английский язык с соблюдением научного стиля: "Точки сегментации выбираются проходом по возможным точкам сегментации слева направо. Если у точки в некотором радиусе от нее нет уже выбранных для сегментации точек-соседей, то она выбирается для сегментации. Радиус определяет минимальное количество значений исходного ряда, которое может попасть в сегмент временного ряда. Для работы алгоритма был выбран радиус, равный 6 часам. Выбор радиуса был сделан, исходя из потенциальной возможности выделять во временном ряде участки в 8-9 часов. Участки такой длины могут отличаться от смежных участков своим характером, который определяется особенностями трафика в рабочее или ночное время суток.".

The segmentation points are chosen by scanning possible segmentation points from left to right. If within a certain radius from a point there are no already selected neighboring points for segmentation, then it is chosen for segmentation. The radius determines the minimum number of values from the original series that can fall into the time series segment. A radius of 6 hours was selected for the algorithm, based on the potential ability to identify segments of 8-9 hours in the time series. Segments of this length may differ from adjacent segments their characteristic, which is determined by the traffic patterns during day or night time.

Переведи на английский язык с соблюдением научного стиля: "На рисунке 3 показано соответствие скользящих окон, в которых характер временного ряда изменился, и возможных точек сегментации исходного временного ряда. Красные точки на графике б) обозначают точки t-критерия, вышедшие за критические значения (зеленые горизонтальные линии). Вертикальные линии на графике б) проведены в точках, которые были выбраны для сегментации. Вертикальные красные линии на графике а) разделяют исходный временной ряд характеристики на сегменты в точках сегментации. Координаты точек сегментации расположены между координатами точек исходного временного ряда в силу того, что в скользящее окно входит четное количество точек.".

In Figure 3, the correspondence between the sliding windows, where the time series characteristic has changed, and the potential segmentation points of the original time series is depicted. The red points on graph b) represent the points of the t-criterion that have exceeded the critical values (green horizontal lines). The vertical lines on graph b) are drawn at the points selected for segmentation. The vertical red lines on graph a) delineate the characteristic of the original time series into segments at the segmentation points. The coordinates of the segmentation points are located between the coordinates of the points of the original time series, as an even number of points is encompassed by the sliding window.

Переведи на английский язык с соблюдением научного стиля: "Рисунок 3. Соответствие точек t-критерия для скользящих окон и точек исходного ряда: а) график исходного временного ряда характеристики процесса передачи голосового трафика, б) график t-критерия, рассчитанного для скользящих окон

Далее формируется однородная выборка для анализа контрольными картами, алгоритм представлен на рисунке 4. Выраженная связь между последовательными значениями временного ряда с лагом 24 указывает на наличие выраженной сезонной зависимости от времени суток. Если коэффициент автокорреляции больше 0,25, перед сравнением сегментов друг с другом сезонная составляющая устраняется.".

Figure 3. Correspondence of t-criterion points for sliding windows and points of the original time series: a) plot of the original time series characteristic of the voice traffic transmission process, b) plot of the t-criterion calculated for the sliding windows.

Subsequently, a homogeneous sample is formed for analysis with control charts, the algorithm is presented in Figure 4. The pronounced relationship between consecutive values of the time series with a lag of 24 indicates a strong seasonal dependence on the time of day. If the autocorrelation coefficient exceeds 0.25, the seasonal component is eliminated before comparing the segments with each other.

Переведи на английский язык с соблюдением научного стиля: "Рисунок 4. Алгоритм формирования однородной выборки для анализа контрольными картами

В статье [10] подробно рассмотрен вопрос декомпозиции ряда на отдельные компоненты различными алгоритмами. Искажения корреляций, которые вносятся алгоритмами на основе модели ARIMA (X-12-ARIMA US Census Bureau’s или TRAMO/SEATS) из-за многократного использования скользящих средних, могут повлиять на эффективность применения контрольных карт для анализа временного ряда с устраненной сезонной компонентой. Поэтому желательно использовать методы сезонной корректировки, основанные на вариационных принципах (например, Adjust Z5 из [10]), и даже допустимо использовать примитивные способы устранения сезонных колебаний, которые минимальным образом повлияют на расчет средних и размахов. Однако простое устранение сезонной составляющей вычитанием значений с лагом, приведет к такому искажению временного ряда, которое не позволит делать адекватных выводов об изменении характеристики. Поэтому при использовании примитивных способов устранения сезонных колебаний для сохранения особенностей исходного временного ряда предлагается из значения характеристики за каждый час суток вычитать медианное или среднее арифметическое значение характеристики, соответствующее этому часу. Причем последнее значение временного ряда не учитывается при расчете медианы или среднего значения, поскольку может быть завышено из-за наличия фрода в трафике.".

Figure 4. Algorithm for forming a homogeneous sample for analysis with control charts.

The article [10] extensively explores the decomposition of the time series into individual components using various algorithms. Distortions in correlations introduced by algorithms based on the ARIMA model (X-12-ARIMA US Census Bureau's or TRAMO/SEATS) due to the repeated use of moving averages, can impact the effectiveness of applying control charts for analyzing a time series with the seasonal component removed. Therefore, it is desirable to use seasonal adjustment methods based on variational principles (e.g., Adjust Z5 from [10]), and it is even permissible to use primitive methods for seasonal fluctuations that minimally affect the calculation of averages and ranges. However, simple elimination of the seasonal component by subtracting values with a lag will lead to distortion of the time series that will not allow for adequate conclusions about changes in the characteristic. Hence, when using primitive methods for eliminating seasonal fluctuations to preserve the features of the original time series, it is suggested to subtract the median or arithmetic mean value of the characteristic corresponding to each hour from the characteristic value for that hour. Additionally, the last value of the time series is not considered when calculating the median or mean value, as it may be inflated due to the presence of fraudulent traffic.

Переведи на английский язык с соблюдением научного стиля: "После этапа устранения сезонной составляющей временного ряда производится попарное сравнение сегментов временного ряда с последним сегментом. Чтобы объединить выборки двух сегментов вместе, необходимо убедиться в принадлежности одной генеральной совокупности. В алгоритме (на рисунке 4) предлагается использовать критерий Шапиро-Уилка для проверки гипотезы о нормальности распределения двух выборок. Если обе сравниваемые выборки имеют нормальное распределение, то применяем критерий Фишера для проверки гипотезы о равенстве дисперсий двух выборок. Если хотя бы одна сравниваемая выборка не имеет нормальное распределение, то над выборками производится преобразование Бокса-Кокса [11]. Затем применяется стандартизированная оценка (z-оценка) для проверки гипотезы относительно статистической значимости разницы между средними значениями двух выборок. В выборках может встречаться значительное количество одинаковых значений, поэтому в алгоритме для сравнения выборок не используются непараметрические ранговые критерии, наподобие критерия Уилкоксона-Манна-Уитни.".

After eliminating the seasonal component of the time series pairwise comparison of the time series segments with the last segment is performed. To combine the samples of the two segments, it is necessary to ensure that they belong to the same population. The algorithm (in Figure 4) suggests using the Shapiro-Wilk criterion to test the hypothesis of the normality of the distribution of the two samples. If both compared samples have a normal distribution, then the F-test is applied to test the hypothesis of equality of variances of the two samples. If at least one of the compared samples does not have a normal distribution, the Box-Cox transformation is applied to the samples [11]. Then, a standardized assessment (z-score) is used to test the hypothesis regarding the statistical significance of the difference between the means of the two samples. Since the samples may contain a considerable number of identical values, non-parametric rank criteria such as the Wilcoxon-Mann-Whitney test are not used in the algorithm for comparing the samples.

Переведи на английский язык с соблюдением научного стиля: "В случаях, когда разница между средними двух сравниваемых выборок статистически не значима, гипотеза о равенстве дисперсий не отклонена или было выполнено преобразование Бокса-Кокса перед проверкой гипотезы о разнице средних, делается вывод о принадлежности выборок двух сегментов к общей генеральной совокупности. Сегмент, который сравнивался с последним сегментом временного ряда, добавляется в общую выборку, которая будет использована для построения контрольных карт.".

In cases where the difference between the means of the two compared samples is not statistically significant, the hypothesis of equal variances is not rejected, or the Box-Cox transformation was performed before testing the hypothesis of the mean difference, it is concluded that the samples from the two segments belong to the same overall population. The segment that was compared with the last segment of the time series is added to the overall sample, which will be used for constructing control charts.

Переведи на английский язык с соблюдением научного стиля: "После того, как будут проверены гипотезы для всех пар сегментов и будет сформирована общая выборка производится анализ контрольными картами, приведенный на рисунке 5.".

Once hypotheses for all segment pairs have been tested and a combined sample formed, an analysis using control charts, as shown in Figure 5, is conducted.

Переведи на английский язык с соблюдением научного стиля: "Рисунок 5. Алгоритм анализа контрольными картами

По полученной выборке строится XmR-карта, контрольные границы карты индивидуальных значений вычисляются, учитывая возможную асимметрию распределения значений в полученной выборке. Способ расчета контрольных границ с учетом коэффициента асимметрии представлен в источнике [12]. Затем происходит проверка о выходе за верхнюю контрольную границу карты индивидуальных значений последнего значения характеристики, соответствующего текущему часу. Выход точки за границу даст сигнал о том, что количество звонков за текущий час не характерно для данного маршрута. Далее происходит проверка о выходе последнего значения за верхнюю контрольную границу карты размахов. Выход точки за эту границу сигнализирует о том, что изменение количества звонков оказалось резким, скачкообразным и не характерным для данного маршрута. Если выход точки за границы произошел на обоих картах, количество звонков в час изменилось резко и превысило ожидаемые значения, на маршруте произошел всплеск трафика. В свою очередь, этого говорит о возможном наличии мошеннического трафика на маршруте. На этом заканчивается алгоритм сегментации временного ряда характеристики процесса передачи голосового трафика для анализа контрольными картами на предмет увеличения количества звонков на маршруте.".

Figure 5. Control Chart Analysis Algorithm

An XmR chart is constructed based on the obtained sample, and the control limits for the individual value chart are calculated, taking into account possible asymmetry in the distribution of values in the sample. The method for calculating control limits with consideration of the coefficient of asymmetry is presented in reference [12]. Subsequently, a check is conducted for any point exceeding the upper control limit of the individual value chart for the last value of the characteristic corresponding to the current hour. If a point exceeds the limit it signals that the number of calls in the current hour is atypical for this route. Following this, a check is performed for any point exceeding the upper control limit of the range chart. If a point exceeds this limit, it indicates that the change in the number of calls has been abrupt, sudden, and not typical for this route. If a point exceeds the limits on both charts, the number of calls per hour has changed abruptly, the expected values, indicating a traffic surge on the route. This, in turn, suggests the possible presence of fraudulent traffic on the route. This concludes the algorithm for segmenting the time series of the traffic transmission process characteristic for analysis using control charts for the purpose of detecting an increase in the number of calls on the route.

Переведи на английский язык с соблюдением научного стиля: "Пример работы алгоритма показан на смоделированном временном ряде, изображенном на графике а) рисунка 6. Модель имитирует временной ряд характеристики количества звонков в час из 97 значений — с 9 часов утра пятницы до 10 утра вторника. Сезонная компонента моделировалась при помощи синусоиды с периодом в 24 часа, для рабочих дней амплитуда синусоиды равна 20, для субботы — 15, для воскресенья — 5. На полученный временной ряд был наложен шум с полунормальным распределением, полученным из шума нормального распределения с μ = 0 и σ = 2.".

The algorithm's operation is illustrated using a simulated time series, depicted in panel a) of Figure 6. The model simulates a time series of the characteristic of the number of calls per hour with 97 values, ranging from 9 a.m. on Friday to 10 a.m. on Tuesday. The seasonal component of the model was simulated using a sinusoid with a period of 24 hours, with an amplitude of 20 for weekdays, 15 for Saturdays, and 5 for Sundays. The generated time series was overlaid with noise following a half-normal distribution, derived from the noise of a normal distribution with μ = 0 and σ = 2.

Переведи на английский язык с соблюдением научного стиля: "По смоделированному временному ряду был оценен показатель Хёрста (представлен на графике б) рисунка 6) в скользящем окне из 32 значений, было получено 66 значений показателя. После этого был рассчитан t-критерий (его график представлен на графике в) рисунка 6) и определены 5 точек сегментации на основе точек t-критерия, которые выходят за границы критического значения.".

The Hurst exponent was estimated for the simulated time series (as presented in panel b) of Figure 6) using a sliding window of 32 values, resulting in 66 calculated exponent values. Subsequently, the t-criterion was computed (its graph is depicted in panel c) of Figure 6), and 5 segmentation points were identified based on the t-criterion points that exceed the critical value boundaries.

Переведи на английский язык с соблюдением научного стиля: "Затем из исходного временного ряда была вычтена сезонная компонента, вычисленная для каждого часа как медиана количества звонков в час. Полученный временной ряд был разделен на 6 сегментов, и все сегменты были сравнены с последним сегментом по алгоритму, представленному на рисунке 4. В однородную выборку были включены сегменты 1, 5 и 6.".

Then the seasonal component, calculated for each hour as the median of the number of calls per hour, was subtracted from the original time series. The resulting time series was divided into 6 segments, and all segments were compared to the last segment using the algorithm presented in Figure 4. Segments 1, 5, and 6 were included in a homogeneous sample.

Переведи на английский язык с соблюдением научного стиля: "Рисунок 6. Графики для некоторых этапов процесса сегментации временного ряда: а) график исходного ряда с линиями сегментации, б) график показателя Хёрста для скользящих окон, в) график t-критерия с точками возможной сегментации, на который нанесены линии сегментации, г) график временного ряда с устраненной примитивным способом сезонной компонентой, на который нанесены линии сегментации

На верхнем графике рисунка 7 представлена контрольная карта индивидуальных значений, построенная по набору данных из однородных сегментов 1, 5 и 6. На нижнем графике того же рисунка представлена контрольная карта скользящих размахов, построенная по этому же набору данных. Выбросы в последнем значении отсутствуют.".

Figure 6. Plots representing some stages of the time series segmentation process: a) plot of the original series with segmentation lines, b) plot of the Hurst exponent for the sliding windows, c) plot of the t-criterion with potential segmentation points and segmentation lines, d) plot of the time series with the seasonality eliminated using a simple method, with segmentation lines overlaid.

The top plot of Figure 7 shows the individual values control chart constructed from the homogeneous segments 1, 5, and 6. The bottom plot of the same figure displays the moving range control chart constructed from the same dataset. No outliers are present in the last point.

Переведи на английский язык с соблюдением научного стиля: "Рисунок 7. X-карта (сверху) и mR-карта (снизу) для набора данных, собранного из однородных сегментов

На рисунках 8-9 приведена работа предыдущего алгоритма анализа временного ряда характеристики процесса передачи голосового трафика контрольными картами. Предыдущий алгоритм использовал временной ряд характеристики количества звонков в час за последние 49 часов (двое суток и последний час). Для получения графиков были использованы последние 49 часов смоделированного временного ряда (график а) рисунка 8). Далее согласно прежнему алгоритму устранялась сезонная компонента тем же способом, который используется в предлагаемом в данной статье алгоритме (график б) рисунка 8). Сразу после этого строились контрольная карта индивидуальных значений и контрольная карта скользящих размахов (рисунок 9). Как можно видеть, подобный алгоритм приводит к ложному срабатыванию — значения за текущий час выходят за контрольные границы и в X-карте, и в mR-карте. Ложное срабатывание обусловлено объединением вместе разнородных данных (данных за выходные и рабочие дни).".

Figure 7. X-chart (top) and mR-chart (bottom) for the dataset collected from homogeneous segments.

Figures 8-9 depict the application of the previous time series characteristic analysis algorithm for voice traffic transmission process using control charts. The previous algorithm utilized the hourly call count characteristic time series for the last 49 hours (two days and the last hour). The graphs were constructed using the last 49 hours of the simulated time series (graph a) of Figure 8). Subsequently, following the previous algorithm, the seasonal component was removed in the same manner as in the algorithm proposed in this article (graph b) of Figure 8). Immediately after, individual values control chart and moving range control chart were constructed (Figure 9). As evident, such an algorithm leads to false alarms - values for the current hour exceed the control limits in both the X-chart and mR-chart. The false alarms are triggered by the amalgamation of heterogeneous data (data from both weekends and weekdays).

Переведи на английский язык с соблюдением научного стиля: "Рисунок 8. Графики: а) исходного временного ряда за последние двое суток, б) временного ряда за последние двое суток с устраненной примитивным способом сезонной компонентой

Рисунок 9. X-карта (сверху) и mR-карта (снизу) для временного ряда за последние двое суток с устраненной сезонной компонентой".

Figure 8. Plots: a) original time series for the last two days, b) time series for the last two days with the seasonal component removed using a simple method.

Figure 9. X-chart (top) and mR-chart (bottom) for the time series for the last two days with the seasonal component removed.

Переведи на английский язык с соблюдением научного стиля: "В качестве направления дальнейшего улучшения качества работы алгоритма видится устранение сезонной компоненты после этапа выделения однородных данных. Этот этап должен в себя включать алгоритм посуточной сегментации данных на сегменты с разным характером. Например, данные за рабочие дни должны быть отделены от данных за выходные. После объединения данных за сутки с одинаковым характером в одну выборку, применение скользящего показателя Хёрста на этой выборке может оказаться эффективнее.".

As a direction for further improving the algorithm's performance, the removal of the seasonal component after the homogeneous data extraction stage appears to be promising. This stage should involve an algorithm for daily segmentation of the data into segments with different characteristics. For instance, data from weekdays should be separated from data from weekends. After consolidating the data for the day with similar characteristics into a single sample, applying the sliding Hurst exponent to this sample could prove to be more effective.

Переведи на английский язык с соблюдением научного стиля: "Когда всплеск на маршруте вызван не мошеннической атакой, анализ контрольными картами по сегментированным данным будет давать ложные срабатывания (ошибки первого рода при обнаружении фрода). Поэтому все CDR за час с выявленным всплеском должны передаваться в модуль анализа, который на основе обогащенных данных определит принадлежность звонков к мошенническому трафику. Это позволит снизить количество ошибок первого рода за счет ансамблирования статистических методов и методов машинного обучения. Например, если использовать в модуле анализа нейронную сеть, которая сможет учесть сложные зависимости в обогащенных данных и результатах анализа контрольными картами, чтобы по совокупным данным сделать вывод об отсутствии на маршруте фрода, несмотря на ложное срабатывание контрольных карт. Затем мошеннические телефонные номера отправляются в модуль блокирования, который выделяет диапазоны телефонных номеров, на которые не будет пропускаться телефонный трафик [13].".

When a surge in traffic on a route is not caused by fraudulent activity, analysis using segmented data on control charts will result in false alarms (type I errors in fraud detection). Therefore, all Call Detail Records (CDRs) for the hour with the identified surge should be forwarded to the analysis module, which, based on enriched data, will determine the association of calls with fraudulent traffic. This approach will help reduce the number of type I errors through the ensemble of statistical methods and machine learning. For instance, using a neural network in the analysis module could consider complex dependencies in the enriched data and the results of control chart analysis to conclude the absence of fraud on the route based on aggregate data, despite the false alarms from the control charts. Subsequently, fraudulent phone numbers are sent to the blocking module, which identifies ranges of phone numbers to block incoming call traffic [13].