Friday 20 January 2017

Autoregressive Moving Average Model Example

Un RIMA signifie Autoregressive Integrated Moving Average modèles. Univariée (vecteur unique) ARIMA est une technique de prévision qui projette les valeurs futures d'une série basée entièrement sur sa propre inertie. Sa principale application est dans le domaine de la prévision à court terme nécessitant au moins 40 points de données historiques. Il fonctionne mieux lorsque vos données présentent un modèle stable ou cohérent avec le temps avec un minimum de valeurs aberrantes. Parfois appelé Box-Jenkins (après les auteurs originaux), ARIMA est généralement supérieur aux techniques de lissage exponentiel quand les données sont raisonnablement longues et la corrélation entre les observations passées est stable. Si les données sont courtes ou très volatiles, une méthode de lissage peut avoir un meilleur rendement. Si vous n'avez pas au moins 38 points de données, vous devriez considérer une autre méthode que ARIMA. La première étape de l'application de la méthodologie ARIMA est de vérifier la stationnarité. La stationnarité implique que la série reste à un niveau relativement constant dans le temps. Si une tendance existe, comme dans la plupart des applications économiques ou commerciales, vos données ne sont PAS stationnaires. Les données devraient également montrer une variance constante de ses fluctuations dans le temps. Cela se voit facilement avec une série qui est fortement saisonnière et croissant à un rythme plus rapide. Dans un tel cas, les hauts et les bas de la saisonnalité deviendront plus dramatiques avec le temps. Sans ces conditions de stationnarité rencontrées, un grand nombre des calculs associés au procédé ne peuvent pas être calculés. Si une représentation graphique des données indique la non-stationnalité, alors vous devez faire une différence entre les séries. La différence est un excellent moyen de transformer une série non stationnaire en stationnaire. Ceci est fait en soustrayant l'observation dans la période courante de la précédente. Si cette transformation n'est effectuée qu'une seule fois dans une série, vous dites que les données ont été différenciées pour la première fois. Ce processus élimine essentiellement la tendance si votre série croît à un taux assez constant. Si elle croît à un rythme croissant, vous pouvez appliquer la même procédure et la différence les données à nouveau. Vos données seraient ensuite secondées. Les autocorrélations sont des valeurs numériques qui indiquent comment une série de données est liée à elle-même au fil du temps. Plus précisément, elle mesure à quel point les valeurs de données à un certain nombre de périodes séparées sont corrélées les unes aux autres dans le temps. Le nombre de périodes d'intervalle est généralement appelé le décalage. Par exemple, une autocorrélation au décalage 1 mesure comment les valeurs 1 période séparées sont corrélées les unes aux autres tout au long de la série. Une autocorrélation au décalage 2 mesure comment les données deux périodes séparées sont corrélées tout au long de la série. Les autocorrélations peuvent varier de 1 à -1. Une valeur proche de 1 indique une corrélation positive élevée alors qu'une valeur proche de -1 implique une corrélation négative élevée. Ces mesures sont le plus souvent évaluées par des parcelles graphiques appelées corrélagrammes. Un corrélogramme trace les valeurs d'autocorrélation pour une série donnée à différents décalages. Ceci est appelé la fonction d'autocorrélation et est très important dans la méthode ARIMA. La méthodologie ARIMA tente de décrire les mouvements d'une série temporelle stationnaire en fonction de ce que l'on appelle les paramètres autorégressifs et de moyenne mobile. Ceux-ci sont appelés paramètres AR (autoregessive) et MA (moyennes mobiles). Un modèle AR avec un seul paramètre peut être écrit comme. X (t) A (1) X (t-1) E (t) où X (t) séries temporelles sous enquête A (1) le paramètre autorégressif d'ordre 1 X (t-1) (T) le terme d'erreur du modèle Cela signifie simplement que toute valeur donnée X (t) peut être expliquée par une fonction de sa valeur précédente, X (t-1), plus une erreur aléatoire inexplicable, E (t). Si la valeur estimée de A (1) était de 0,30, alors la valeur actuelle de la série serait liée à 30 de sa valeur il y a une période. Bien sûr, la série pourrait être liée à plus d'une valeur passée. Par exemple, X (t) A (1) X (t-1) A (2) X (t-2) E (t) Cela indique que la valeur courante de la série est une combinaison des deux valeurs immédiatement précédentes, X (t-1) et X (t-2), plus une erreur aléatoire E (t). Notre modèle est maintenant un modèle autorégressif de l'ordre 2. Modèles de moyenne mobile: Un deuxième type de modèle de Box-Jenkins est appelé un modèle de moyenne mobile. Bien que ces modèles semblent très semblables au modèle AR, le concept derrière eux est tout à fait différent. Les paramètres de la moyenne mobile rapportent ce qui se produit dans la période t seulement aux erreurs aléatoires qui se sont produites dans des périodes passées, c'est-à-dire E (t-1), E (t-2), etc. plutôt que X (t-1) T-2), (Xt-3) comme dans les approches autorégressives. Un modèle de moyenne mobile avec un terme MA peut s'écrire comme suit. X (t) - B (1) E (t-1) E (t) Le terme B (1) est appelé MA d'ordre 1. Le signe négatif devant le paramètre est utilisé uniquement pour la convention et est habituellement imprimé Automatiquement par la plupart des programmes informatiques. Le modèle ci-dessus dit simplement que toute valeur donnée de X (t) est directement liée uniquement à l'erreur aléatoire de la période précédente, E (t-1), et au terme d'erreur courant E (t). Comme dans le cas des modèles autorégressifs, les modèles de moyenne mobile peuvent être étendus à des structures d'ordre supérieur couvrant différentes combinaisons et des longueurs moyennes mobiles. La méthodologie ARIMA permet également de construire des modèles intégrant à la fois des paramètres autorégressifs et des paramètres de la moyenne mobile. Ces modèles sont souvent appelés modèles mixtes. Bien que cela constitue un outil de prévision plus compliqué, la structure peut en effet simuler la série mieux et produire une prévision plus précise. Les modèles purs impliquent que la structure ne se compose que de paramètres AR ou MA - pas les deux. Les modèles développés par cette approche sont habituellement appelés modèles ARIMA car ils utilisent une combinaison d'auto-régression (AR), d'intégration (I) - se référant au processus inverse de différenciation pour produire les opérations de prévision et de moyenne mobile (MA). Un modèle ARIMA est habituellement déclaré comme ARIMA (p, d, q). Cela représente l'ordre des composantes autorégressives (p), le nombre d'opérateurs de différenciation (d) et l'ordre le plus élevé du terme moyen mobile. Par exemple, ARIMA (2,1,1) signifie que vous avez un modèle autorégressif de second ordre avec une composante moyenne mobile de premier ordre dont la série a été différenciée une fois pour induire la stationnarité. Picking the Right Specification: Le principal problème dans le classique Box-Jenkins est d'essayer de décider quelle spécification ARIMA à utiliser - i. e. Combien de paramètres AR et / ou MA à inclure. C'est ce que beaucoup de Box-Jenkings 1976 a été consacré au processus d'identification. Elle dépend de l'éva - luation graphique et numérique des fonctions d'autocorrélation et d'autocorrélation partielle. Eh bien, pour vos modèles de base, la tâche n'est pas trop difficile. Chacun a des fonctions d'autocorrélation qui ont une certaine apparence. Cependant, lorsque vous montez en complexité, les motifs ne sont pas facilement détectés. Pour rendre les choses plus difficiles, vos données ne représentent qu'un échantillon du processus sous-jacent. Cela signifie que les erreurs d'échantillonnage (valeurs aberrantes, erreurs de mesure, etc.) peuvent fausser le processus d'identification théorique. C'est pourquoi la modélisation ARIMA traditionnelle est un art plutôt qu'une science. Introduction à ARIMA: modèles non saisonniers Équation de prévision ARIMA (p, d, q): Les modèles ARIMA sont en théorie la classe la plus générale de modèles pour prévoir une série chronologique qui Peut être rendue 8220stationnaire8221 par différenciation (si nécessaire), peut-être en conjonction avec des transformations non linéaires telles que l'abattage ou le dégonflage (si nécessaire). Une variable aléatoire qui est une série temporelle est stationnaire si ses propriétés statistiques sont toutes constantes dans le temps. Une série stationnaire n'a pas de tendance, ses variations autour de sa moyenne ont une amplitude constante, et elle se balance d'une manière cohérente. C'est-à-dire que ses schémas de temps aléatoires à court terme ont toujours la même signification statistique. Cette dernière condition signifie que ses autocorrélations (corrélations avec ses propres écarts précédents par rapport à la moyenne) restent constantes dans le temps, ou de manière équivalente, que son spectre de puissance reste constant dans le temps. Une variable aléatoire de cette forme peut être considérée (comme d'habitude) comme une combinaison de signal et de bruit, et le signal (si l'on est apparent) pourrait être un modèle de réversion moyenne rapide ou lente, ou oscillation sinusoïdale, ou alternance rapide de signe , Et il pourrait également avoir une composante saisonnière. Un modèle ARIMA peut être considéré comme un 8220filter8221 qui essaie de séparer le signal du bruit, et le signal est ensuite extrapolé dans l'avenir pour obtenir des prévisions. L'équation de prévision d'ARIMA pour une série temporelle stationnaire est une équation linéaire (c'est-à-dire de type régression) dans laquelle les prédicteurs sont constitués par des décalages de la variable dépendante et / ou des décalages des erreurs de prévision. C'est-à-dire: Valeur prédite de Y une constante et / ou une somme pondérée d'une ou plusieurs valeurs récentes de Y et / ou d'une somme pondérée d'une ou plusieurs valeurs récentes des erreurs. Si les prédicteurs se composent uniquement de valeurs décalées de Y. il s'agit d'un modèle autoregressif pur (8220 auto-régressé8221), qui est juste un cas particulier d'un modèle de régression et qui pourrait être équipé d'un logiciel de régression standard. Par exemple, un modèle autorégressif de premier ordre (8220AR (1) 8221) pour Y est un modèle de régression simple dans lequel la variable indépendante est juste Y retardée d'une période (LAG (Y, 1) dans Statgraphics ou YLAG1 dans RegressIt). Si certains des prédicteurs sont des retards des erreurs, un modèle ARIMA, il n'est pas un modèle de régression linéaire, car il n'y a aucun moyen de spécifier 8220last période8217s error8221 comme une variable indépendante: les erreurs doivent être calculées sur une période à période de base Lorsque le modèle est adapté aux données. Du point de vue technique, le problème de l'utilisation d'erreurs retardées comme prédicteurs est que les prédictions du modèle 8217 ne sont pas des fonctions linéaires des coefficients. Même s'ils sont des fonctions linéaires des données passées. Ainsi, les coefficients dans les modèles ARIMA qui incluent des erreurs retardées doivent être estimés par des méthodes d'optimisation non linéaires (8220hill-climbing8221) plutôt que par la simple résolution d'un système d'équations. L'acronyme ARIMA signifie Auto-Regressive Integrated Moving Average. Les Lags de la série stationnaire dans l'équation de prévision sont appelés termes contingentoréducteurs, les retards des erreurs de prévision sont appelés quotmoving averagequot terms et une série temporelle qui doit être différenciée pour être stationnaire est dite être une version quotintegratedquot d'une série stationnaire. Les modèles de Random-Walk et de tendance aléatoire, les modèles autorégressifs et les modèles exponentiels de lissage sont tous des cas particuliers de modèles ARIMA. Un modèle ARIMA non saisonnier est classé comme un modèle quotARIMA (p, d, q), où: p est le nombre de termes autorégressifs, d est le nombre de différences non saisonnières nécessaires pour la stationnarité, et q est le nombre d'erreurs de prévision retardées dans L'équation de prédiction. L'équation de prévision est construite comme suit. En premier lieu, y désigne la différence d ème de Y. ce qui signifie: Notez que la deuxième différence de Y (le cas d2) n'est pas la différence de 2 périodes. Au contraire, c'est la première différence de la première différence. Qui est l'analogue discret d'une seconde dérivée, c'est-à-dire l'accélération locale de la série plutôt que sa tendance locale. En termes de y. L'équation de prévision générale est: Ici, les paramètres de la moyenne mobile (9528217s) sont définis de sorte que leurs signes soient négatifs dans l'équation, suivant la convention introduite par Box et Jenkins. Certains auteurs et logiciels (y compris le langage de programmation R) les définissent de sorte qu'ils ont des signes plus à la place. Lorsque les nombres réels sont branchés dans l'équation, il n'y a pas d'ambiguïté, mais il est important de savoir quelle convention votre logiciel utilise lorsque vous lisez la sortie. Souvent, les paramètres y sont indiqués par AR (1), AR (2), 8230 et MA (1), MA (2), 8230, etc. Pour identifier le modèle ARIMA approprié pour Y. vous commencez par déterminer l'ordre de différenciation D) le besoin de stationner la série et de supprimer les caractéristiques brutes de la saisonnalité, peut-être en conjonction avec une transformation de stabilisation de la variance telle que l'abattage ou le dégonflage. Si vous vous arrêtez à ce point et que vous prédisez que la série différenciée est constante, vous avez simplement mis en place une marche aléatoire ou un modèle de tendance aléatoire. Cependant, la série stationnaire peut toujours avoir des erreurs autocorrélées, ce qui suggère qu'un certain nombre de termes AR (p 8805 1) et / ou certains termes MA (q 8805 1) sont également nécessaires dans l'équation de prévision. Le processus de détermination des valeurs de p, d et q qui sont les meilleurs pour une série temporelle donnée sera discuté dans des sections ultérieures des notes (dont les liens sont en haut de cette page), mais un aperçu de certains des types Des modèles non saisonniers ARIMA qui sont couramment rencontrés est donné ci-dessous. ARIMA (1,0,0) modèle autorégressif de premier ordre: si la série est stationnaire et autocorrélée, peut-être peut-elle être prédite comme un multiple de sa propre valeur précédente, plus une constante. L'équation de prévision dans ce cas est 8230 qui est Y régressée sur elle-même décalée d'une période. Il s'agit d'un 8220ARIMA (1,0,0) constant8221 modèle. Si la moyenne de Y est nulle, alors le terme constant ne serait pas inclus. Si le coefficient de pente 981 1 est positif et inférieur à 1 dans l'amplitude (il doit être inférieur à 1 dans l'amplitude si Y est stationnaire), le modèle décrit le comportement de réverbération moyen dans lequel la valeur de la prochaine période doit être prédite 981 fois Loin de la valeur moyenne de cette période. Si 981 1 est négatif, il prédit un comportement de réversion moyenne avec l'alternance des signes, c'est-à-dire qu'il prédit également que Y sera inférieur à la moyenne de la période suivante si elle est supérieure à la moyenne de cette période. Dans un modèle autorégressif du second ordre (ARIMA (2,0,0)), il y aurait un terme Y t-2 sur la droite aussi, et ainsi de suite. Selon les signes et les grandeurs des coefficients, un modèle ARIMA (2,0,0) pourrait décrire un système dont la réversion moyenne se fait d'une manière oscillatoire sinusoïdale, comme le mouvement d'une masse sur un ressort soumis à des chocs aléatoires . Randonnée aléatoire ARIMA (0,1,0): Si la série Y n'est pas stationnaire, le modèle le plus simple possible est un modèle de marche aléatoire, qui peut être considéré comme un cas limite d'un modèle AR (1) dans lequel le modèle autorégressif Coefficient est égal à 1, c'est-à-dire une série à réversion moyenne infiniment lente. L'équation de prédiction pour ce modèle peut s'écrire: où le terme constant est le changement moyen de période à période (c'est-à-dire la dérive à long terme) dans Y. Ce modèle pourrait être adapté comme un modèle de régression sans interception dans lequel La première différence de Y est la variable dépendante. Comme il comprend une différence non saisonnière et un terme constant, il est classé en tant que modèle de type ARIMA (0,1,0) avec constant. quot Le modèle aléatoire-sans-dérive serait un ARIMA (0,1, 0) modèle sans modèle constant autorimétrique ARIMA (1,1,0) différencié: Si les erreurs d'un modèle de marche aléatoire sont autocorrélées, peut-être le problème peut-il être fixé en ajoutant un décalage de la variable dépendante à l'équation de prédiction - - c'est à dire En faisant régresser la première différence de Y sur elle-même décalée d'une période. Cela donnerait l'équation de prédiction suivante: qui peut être réarrangée à. Ceci est un modèle autorégressif de premier ordre avec un ordre de différenciation non saisonnière et un terme constant - c'est-à-dire. Un modèle ARIMA (1,1,0). ARIMA (0,1,1) sans lissage exponentiel simple constant: Une autre stratégie pour corriger les erreurs autocorrélées dans un modèle de marche aléatoire est suggérée par le modèle de lissage exponentiel simple. Rappelons que pour certaines séries temporelles non stationnaires (par exemple celles qui présentent des fluctuations bruyantes autour d'une moyenne variable lentement), le modèle de marche aléatoire n'obtient pas une moyenne mobile des valeurs passées. En d'autres termes, plutôt que de prendre l'observation la plus récente comme la prévision de la prochaine observation, il est préférable d'utiliser une moyenne des dernières observations afin de filtrer le bruit et de mieux estimer la moyenne locale. Le modèle de lissage exponentiel simple utilise une moyenne mobile exponentiellement pondérée des valeurs passées pour obtenir cet effet. L'équation de prédiction pour le modèle de lissage exponentiel simple peut être écrite en un certain nombre de formes mathématiquement équivalentes. Dont l'une est la forme dite de correction d'erreur 8221, dans laquelle la prévision précédente est ajustée dans la direction de l'erreur qu'elle a faite: Comme e t-1 Y t-1 - 374 t-1 par définition, ceci peut être réécrit comme : Qui est une équation de prévision ARIMA (0,1,1) sans constante avec 952 1 1 - 945. Cela signifie que vous pouvez ajuster un lissage exponentiel simple en le spécifiant comme un modèle ARIMA (0,1,1) sans Constante, et le coefficient MA (1) estimé correspond à 1-moins-alpha dans la formule SES. Rappelons que dans le modèle SES, l'âge moyen des données dans les prévisions de 1 période à venir est de 1 945. ce qui signifie qu'elles auront tendance à être en retard par rapport aux tendances ou aux points de retournement d'environ 1 945 périodes. Il s'ensuit que l'âge moyen des données dans les prévisions à 1 période d'un modèle ARIMA (0,1,1) sans modèle constant est de 1 (1 - 952 1). Ainsi, par exemple, si 952 1 0.8, l'âge moyen est 5. Alors que 952 1 approche de 1, le modèle ARIMA (0,1,1) sans constante devient une moyenne mobile à très long terme et 952 1 Approche 0, il devient un modèle aléatoire-marche-sans-dérive. Dans les deux modèles précédents décrits ci-dessus, le problème des erreurs autocorrélées dans un modèle de marche aléatoire a été fixé de deux manières différentes: en ajoutant une valeur décalée de la série différenciée À l'équation ou en ajoutant une valeur décalée de l'erreur de prévision. Quelle approche est la meilleure Une règle de base pour cette situation, qui sera discutée plus en détail plus tard, est que l'autocorrélation positive est le mieux traitée en ajoutant un terme AR au modèle et l'autocorrélation négative est généralement mieux traitée en ajoutant un Terme MA. Dans les séries économiques et économiques, l'autocorrélation négative apparaît souvent comme un artefact de différenciation. (En général, la différenciation réduit l'autocorrélation positive et peut même provoquer un basculement de l'autocorrélation positive à négative.) Ainsi, le modèle ARIMA (0,1,1), dans lequel la différenciation est accompagnée d'un terme MA, est plus souvent utilisé qu'un Modèle ARIMA (1,1,0). ARIMA (0,1,1) avec lissage exponentiel simple et constant avec croissance: En implémentant le modèle SES en tant que modèle ARIMA, vous gagnez en fait une certaine souplesse. Tout d'abord, le coefficient de MA (1) estimé peut être négatif. Cela correspond à un facteur de lissage supérieur à 1 dans un modèle SES, ce qui n'est généralement pas autorisé par la procédure de montage du modèle SES. Deuxièmement, vous avez la possibilité d'inclure un terme constant dans le modèle ARIMA si vous le souhaitez, afin d'estimer une tendance moyenne non nulle. Le modèle ARIMA (0,1,1) avec constante a l'équation de prédiction: Les prévisions à une période de ce modèle sont qualitativement similaires à celles du modèle SES, sauf que la trajectoire des prévisions à long terme est typiquement un (Dont la pente est égale à mu) plutôt qu'une ligne horizontale. ARIMA (0,2,1) ou (0,2,2) sans lissage exponentiel linéaire constant: Les modèles de lissage exponentiel linéaire sont des modèles ARIMA qui utilisent deux différences non saisonnières en conjonction avec des termes MA. La seconde différence d'une série Y n'est pas simplement la différence entre Y et elle-même retardée par deux périodes, mais plutôt c'est la première différence de la première différence - i. e. Le changement de la variation de Y à la période t. Ainsi, la deuxième différence de Y à la période t est égale à (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Une seconde différence d'une fonction discrète est analogue à une dérivée seconde d'une fonction continue: elle mesure la quotation ou la quotcurvature dans la fonction à un moment donné. Le modèle ARIMA (0,2,2) sans constante prédit que la seconde différence de la série est égale à une fonction linéaire des deux dernières erreurs de prévision: qui peuvent être réarrangées comme: où 952 1 et 952 2 sont les MA (1) et MA (2) coefficients. Il s'agit d'un modèle de lissage exponentiel linéaire général. Essentiellement le même que le modèle Holt8217s, et le modèle Brown8217s est un cas spécial. Il utilise des moyennes mobiles exponentiellement pondérées pour estimer à la fois un niveau local et une tendance locale dans la série. Les prévisions à long terme de ce modèle convergent vers une droite dont la pente dépend de la tendance moyenne observée vers la fin de la série. ARIMA (1,1,2) sans lissage exponentiel linéaire à tendance amortie constante. Ce modèle est illustré dans les diapositives accompagnant les modèles ARIMA. Il extrapole la tendance locale à la fin de la série, mais l'aplatit à des horizons de prévision plus longs pour introduire une note de conservatisme, une pratique qui a un soutien empirique. Voir l'article sur Quest pourquoi la Tendance amortie travaille par Gardner et McKenzie et l'article de Golden Rulequot par Armstrong et al. Pour plus de détails. Il est généralement conseillé de s'en tenir à des modèles dans lesquels au moins l'un de p et q n'est pas supérieur à 1, c'est-à-dire ne pas essayer d'adapter un modèle tel que ARIMA (2,1,2), car cela entraînera vraisemblablement un overfitting Et quotcommon-factorquot qui sont discutés plus en détail dans les notes sur la structure mathématique des modèles ARIMA. Implémentation de la feuille de calcul: Les modèles ARIMA tels que ceux décrits ci-dessus sont faciles à mettre en œuvre sur une feuille de calcul. L'équation de prédiction est simplement une équation linéaire qui fait référence aux valeurs passées des séries temporelles originales et des valeurs passées des erreurs. Ainsi, vous pouvez configurer une table de prévision ARIMA en stockant les données dans la colonne A, la formule de prévision dans la colonne B et les erreurs (données moins les prévisions) dans la colonne C. La formule de prévision dans une cellule typique de la colonne B serait tout simplement Une expression linéaire faisant référence à des valeurs dans les lignes précédentes des colonnes A et C multipliées par les coefficients AR ou MA appropriés stockés dans des cellules ailleurs sur la feuille de calcul.


No comments:

Post a Comment