Thursday 26 October 2017

Fitting moving average model in r no Brasil


Introdução ao ARIMA: modelos não-sazonais: equação de previsão ARIMA (p, d, q): os modelos ARIMA são, em teoria, a classe mais geral de modelos para a previsão de uma série temporal que pode ser feita para ser 8220stação2008 por diferenciação (se necessário), talvez Em conjunto com transformações não-lineares, como registro ou desinflação (se necessário). Uma variável aleatória que é uma série temporal é estacionária se suas propriedades estatísticas são todas constantes ao longo do tempo. Uma série estacionária não tem tendência, suas variações em torno de sua média têm uma amplitude constante, e ela muda de forma consistente. Ou seja, seus padrões de tempo aleatório de curto prazo sempre parecem os mesmos em um sentido estatístico. A última condição significa que suas autocorrelações (correlações com seus próprios desvios anteriores da média) permanecem constantes ao longo do tempo, ou de forma equivalente, que seu espectro de potência permanece constante ao longo do tempo. Uma variável aleatória deste formulário pode ser vista (como de costume) como uma combinação de sinal e ruído, e o sinal (se um é aparente) pode ser um padrão de reversão média rápida ou lenta, ou oscilação sinusoidal, ou alternância rápida no signo , E também poderia ter um componente sazonal. Um modelo ARIMA pode ser visto como um 8220filter8221 que tenta separar o sinal do ruído, e o sinal é então extrapolado para o futuro para obter previsões. A equação de previsão de ARIMA para uma série de tempo estacionária é uma equação linear (isto é, regressão) em que os preditores consistem em atrasos da variável dependente ou atrasos dos erros de previsão. Isto é: valor previsto de Y uma constante ou uma soma ponderada de um ou mais valores recentes de Y e uma soma ponderada de um ou mais valores recentes dos erros. Se os preditores consistem apenas em valores atrasados ​​de Y. é um modelo autoregressivo puro (8220 self-regressed8221), que é apenas um caso especial de um modelo de regressão e que pode ser equipado com o software de regressão padrão. Por exemplo, um modelo autoregressivo de primeira ordem (8220AR (1) 8221) para Y é um modelo de regressão simples no qual a variável independente é apenas Y rezagada em um período (LAG (Y, 1) em Statgraphics ou YLAG1 em RegressIt). Se alguns dos preditores são atrasos dos erros, um modelo ARIMA não é um modelo de regressão linear, porque não existe nenhuma maneira de especificar o erro 8222 do último período8217s como uma variável independente: os erros devem ser computados numa base de período a período Quando o modelo é ajustado aos dados. Do ponto de vista técnico, o problema com o uso de erros atrasados ​​como preditores é que as previsões do modelo8217s não são funções lineares dos coeficientes. Mesmo que sejam funções lineares dos dados passados. Assim, os coeficientes nos modelos ARIMA que incluem erros atrasados ​​devem ser estimados por métodos de otimização não-linear (8220hill-climbing8221) em vez de apenas resolver um sistema de equações. O acrônimo ARIMA significa Auto-Regressive Integrated Moving Average. Lags da série estacionada na equação de previsão são chamados quota de termos degressivos, os atrasos dos erros de previsão são chamados de termos de média de quotmoving, e uma série de tempo que precisa ser diferenciada para ser estacionada é dito ser uma versão quotintegratedquot de uma série estacionária. Modelos aleatórios e de tendência aleatória, modelos autoregressivos e modelos de suavização exponencial são todos os casos especiais de modelos ARIMA. Um modelo ARIMA não-sazonal é classificado como quotARIMA (p, d, q) quot model, onde: p é o número de termos autorregressivos, d é o número de diferenças não-sazonais necessárias para a estacionaridade e q é o número de erros de previsão atrasados ​​em A equação de predição. A equação de previsão é construída da seguinte forma. Primeiro, digamos a d ª diferença de Y. o que significa: Observe que a segunda diferença de Y (o caso d2) não é a diferença de 2 períodos atrás. Em vez disso, é a primeira diferença da primeira diferença. Que é o análogo discreto de uma segunda derivada, isto é, a aceleração local da série em vez da sua tendência local. Em termos de y. A equação geral de previsão é: Aqui, os parâmetros de média móvel (9528217s) são definidos de modo que seus sinais são negativos na equação, seguindo a convenção introduzida pela Box e Jenkins. Alguns autores e software (incluindo a linguagem de programação R) os definem de modo que eles tenham sinais de mais. Quando os números reais estão conectados à equação, não há ambigüidade, mas é importante saber qual a convenção que seu software usa quando você está lendo a saída. Muitas vezes, os parâmetros são indicados por AR (1), AR (2), 8230 e MA (1), MA (2), 8230 etc. Para identificar o modelo ARIMA apropriado para Y. você começa por determinar a ordem de diferenciação (D) a necessidade de estacionar a série e remover as características brutas da sazonalidade, talvez em conjunto com uma transformação estabilizadora de variância, como registro ou desinflação. Se você parar neste ponto e prever que a série diferenciada é constante, você ajustou apenas uma caminhada aleatória ou modelo de tendência aleatória. No entanto, a série estacionada ainda pode ter erros autocorrelacionados, sugerindo que alguns números de AR (p 8805 1) e outros termos do número MA (q 8805 1) também são necessários na equação de previsão. O processo de determinação dos valores de p, d e q que são melhores para uma determinada série temporal será discutido em seções posteriores das notas (cujos links estão no topo desta página), mas uma prévia de alguns tipos Dos modelos ARIMA não-sazonais que são comumente encontrados são dados abaixo. Modelo autoregressivo de primeira ordem ARIMA (1,0,0): se a série estiver estacionada e autocorrelada, talvez possa ser predita como um múltiplo de seu próprio valor anterior, além de uma constante. A equação de previsão neste caso é 8230, que é regredida por si mesma atrasada por um período. Este é um modelo 8220ARIMA (1,0,0) constante8221. Se a média de Y for zero, então o termo constante não seria incluído. Se o coeficiente de inclinação 981 1 for positivo e menor que 1 em magnitude (deve ser inferior a 1 em magnitude se Y estiver estacionário), o modelo descreve o comportamento de reversão média em que o valor do período 8217 seguinte deve ser previsto 981 1 vez como Muito longe da média, já que este valor do período 8217s. Se 981 1 é negativo, ele prevê comportamento de reversão média com alternância de sinais, ou seja, ele também prevê que Y estará abaixo do período médio seguinte se estiver acima da média deste período. Em um modelo autoregressivo de segunda ordem (ARIMA (2,0,0)), haveria um termo Y t-2 também à direita e assim por diante. Dependendo dos sinais e das magnitudes dos coeficientes, um modelo ARIMA (2,0,0) pode descrever um sistema cuja reversão média ocorre de forma sinusoidalmente oscilante, como o movimento de uma massa em uma mola sujeita a choques aleatórios . ARIMA (0,1,0) caminhada aleatória: se a série Y não é estacionária, o modelo mais simples possível para isso é um modelo de caminhada aleatória, que pode ser considerado como um caso limitante de um modelo AR (1) no qual o autorregressivo O coeficiente é igual a 1, ou seja, uma série com reversão média infinitamente lenta. A equação de predição para este modelo pode ser escrita como: onde o termo constante é a mudança média de período para período (ou seja, a derivação de longo prazo) em Y. Esse modelo poderia ser ajustado como um modelo de regressão sem intercepção em que o A primeira diferença de Y é a variável dependente. Uma vez que inclui (apenas) uma diferença não-sazonal e um termo constante, esta é classificada como um modelo quotARIMA (0,1,0) com constante. O modelo aleatório-sem-atrasado seria um ARIMA (0,1, 0) modelo sem constante ARIMA (1,1,0) modelo autoregressivo de primeira ordem diferenciado: se os erros de um modelo de caminhada aleatória forem autocorrelacionados, talvez o problema possa ser corrigido adicionando um atraso da variável dependente à equação de predição - - é Ao regredir a primeira diferença de Y em si mesma atrasada por um período. Isso produziria a seguinte equação de predição: que pode ser rearranjada para Este é um modelo autoregressivo de primeira ordem com uma ordem de diferenciação não-sazonal e um termo constante - ou seja. Um modelo ARIMA (1,1,0). ARIMA (0,1,1) sem alisamento exponencial constante e simples: outra estratégia para corrigir erros autocorrelacionados em um modelo de caminhada aleatória é sugerida pelo modelo de suavização exponencial simples. Lembre-se de que, para algumas séries temporais não estacionárias (por exemplo, as que exibem flutuações ruidosas em torno de uma média variando lentamente), o modelo de caminhada aleatória não funciona, bem como uma média móvel de valores passados. Em outras palavras, ao invés de tomar a observação mais recente como a previsão da próxima observação, é melhor usar uma média das últimas observações para filtrar o ruído e estimar com maior precisão a média local. O modelo de suavização exponencial simples usa uma média móvel ponderada exponencialmente de valores passados ​​para alcançar esse efeito. A equação de predição para o modelo de suavização exponencial simples pode ser escrita em várias formas matematicamente equivalentes. Um dos quais é o chamado formulário 8220error correction8221, em que a previsão anterior é ajustada na direção do erro que ele fez: porque e t-1 Y t-1 - 374 t-1 por definição, isso pode ser reescrito como : Que é uma equação de previsão ARIMA (0,1,1) sem constante com 952 1 1 - 945. Isso significa que você pode ajustar um alisamento exponencial simples, especificando-o como um modelo ARIMA (0,1,1) sem Constante e o coeficiente estimado MA (1) corresponde a 1-menos-alfa na fórmula SES. Lembre-se que, no modelo SES, a idade média dos dados nas previsões de 1 período anterior é de 1 945. O que significa que tenderão a atrasar tendências ou pontos de viragem em cerca de 1 945 períodos. Segue-se que a idade média dos dados nas previsões de 1 período de um ARIMA (0,1,1) - sem modelo constante é 1 (1 - 952 1). Assim, por exemplo, se 952 1 0,8, a idade média é 5. Como 952 1 aborda 1, o ARIMA (0,1,1) - sem modelo constante torna-se uma média móvel de muito longo prazo, e como 952 1 Aproxima-se de 0, torna-se um modelo de caminhada aleatória sem drift. What8217s é a melhor maneira de corrigir a autocorrelação: adicionar termos AR ou adicionar termos MA. Nos dois modelos anteriores discutidos acima, o problema dos erros auto-correlacionados em um modelo de caminhada aleatória foi consertado de duas maneiras diferentes: adicionando um valor atrasado da série diferenciada Para a equação ou adicionando um valor atrasado do erro de previsão. Qual abordagem é melhor Uma regra de ouro para esta situação, que será discutida com mais detalhes mais adiante, é que a autocorrelação positiva geralmente é melhor tratada adicionando um termo AR ao modelo e a autocorrelação negativa geralmente é melhor tratada adicionando um Termo MA. Nas séries temporais econômicas e econômicas, a autocorrelação negativa surge frequentemente como um artefato da diferenciação. (Em geral, a diferenciação reduz a autocorrelação positiva e pode até causar uma mudança de autocorrelação positiva para negativa). Assim, o modelo ARIMA (0,1,1), em que a diferenciação é acompanhada por um termo MA, é mais freqüentemente usado do que um Modelo ARIMA (1,1,0). ARIMA (0,1,1) com alisamento exponencial constante e constante: ao implementar o modelo SES como modelo ARIMA, você realmente ganha alguma flexibilidade. Em primeiro lugar, o coeficiente estimado de MA (1) pode ser negativo. Isso corresponde a um fator de alisamento maior que 1 em um modelo SES, que normalmente não é permitido pelo procedimento de montagem do modelo SES. Em segundo lugar, você tem a opção de incluir um termo constante no modelo ARIMA, se desejar, para estimar uma tendência média não-zero. O modelo ARIMA (0,1,1) com constante tem a equação de previsão: as previsões de um período anteriores deste modelo são qualitativamente similares às do modelo SES, exceto que a trajetória das previsões de longo prazo é tipicamente uma Linha inclinada (cuja inclinação é igual a mu) em vez de uma linha horizontal. ARIMA (0,2,1) ou (0,2,2) sem alisamento exponencial linear constante: modelos de alisamento exponencial linear são modelos ARIMA que utilizam duas diferenças não-sazonais em conjunto com os termos MA. A segunda diferença de uma série Y não é simplesmente a diferença entre Y e ela mesma atrasada por dois períodos, mas é a primeira diferença da primeira diferença - isto é. A mudança de mudança de Y no período t. Assim, a segunda diferença de Y no período t é igual a (Y t-Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Uma segunda diferença de uma função discreta é análoga a uma segunda derivada de uma função contínua: mede a quotaccelerationquot ou quotcurvaturequot na função em um determinado ponto no tempo. O modelo ARIMA (0,2,2) sem constante prediz que a segunda diferença da série é igual a uma função linear dos dois últimos erros de previsão: o que pode ser rearranjado como: onde 952 1 e 952 2 são o MA (1) e MA (2) coeficientes. Este é um modelo de suavização exponencial linear geral. Essencialmente o mesmo que o modelo Holt8217s, e o modelo Brown8217s é um caso especial. Ele usa médias móveis exponencialmente ponderadas para estimar um nível local e uma tendência local na série. As previsões de longo prazo deste modelo convergem para uma linha reta cuja inclinação depende da tendência média observada no final da série. ARIMA (1,1,2) sem alisamento exponencial linear constante de tendência amortecida. Este modelo está ilustrado nos slides que acompanham os modelos ARIMA. Ele extrapola a tendência local no final da série, mas acha-se em horizontes de previsão mais longos para introduzir uma nota de conservadorismo, uma prática que tem suporte empírico. Veja o artigo em quotPor que a Tendência Damped funciona por Gardner e McKenzie e o artigo do quotGolden Rulequot de Armstrong et al. para detalhes. Em geral, é aconselhável manter os modelos em que pelo menos um de p e q não é maior do que 1, ou seja, não tente se ajustar a um modelo como o ARIMA (2,1,2), pois isso provavelmente levará a uma superposição E quotcommon-factorquot questões que são discutidas em mais detalhes nas notas sobre a estrutura matemática dos modelos ARIMA. Implementação da planilha: os modelos ARIMA, como os descritos acima, são fáceis de implementar em uma planilha eletrônica. A equação de predição é simplesmente uma equação linear que se refere a valores passados ​​de séries temporais originais e valores passados ​​dos erros. Assim, você pode configurar uma planilha de previsão ARIMA armazenando os dados na coluna A, a fórmula de previsão na coluna B e os erros (dados menos previsões) na coluna C. A fórmula de previsão em uma célula típica na coluna B seria simplesmente Uma expressão linear que se refere a valores nas linhas precedentes das colunas A e C, multiplicadas pelos coeficientes apropriados de AR ou MA armazenados em células em outro lugar na planilha. Padrões de Mudança Automatizada Padrão ARMA (p, q) Modelos para Análise de Série de Tempo - Parte 1 No Último artigo, analisamos as caminhadas aleatórias e o ruído branco como modelos de séries temporais básicas para certos instrumentos financeiros, como os preços diários de patrimônio e de índice de ações. Descobrimos que, em alguns casos, um modelo de caminhada aleatória era insuficiente para capturar o comportamento de autocorrelação total do instrumento, o que motiva modelos mais sofisticados. Nos próximos dois artigos, vamos discutir três tipos de modelo, ou seja, o modelo Autoregressivo (AR) da ordem p, o modelo de ordem média móvel (MA) da ordem e o modelo de ordem média auto - gressiva mista (ARMA) da ordem p , Q. Esses modelos nos ajudarão a tentar capturar ou explicar mais a correlação serial presente dentro de um instrumento. Em última análise, eles nos fornecerão um meio de prever os preços futuros. No entanto, é bem sabido que as séries temporais financeiras possuem uma propriedade conhecida como aglomeração de volatilidade. Ou seja, a volatilidade do instrumento não é constante no tempo. O termo técnico para este comportamento é conhecido como heterocedasticidade condicional. Uma vez que os modelos AR, MA e ARMA não são condicionalmente heterossejidos, isto é, eles não levam em consideração a acumulação de volatilidade, finalmente precisaremos de um modelo mais sofisticado para nossas previsões. Tais modelos incluem o modelo Heteroskedastic condicional autogressivo (ARCH) e o modelo Heteroskedastic condicional autogressivo generalizado (GARCH), e suas muitas variantes. O GARCH é particularmente conhecido em financiamento quantitativo e é usado principalmente para simulações de séries temporais financeiras como meio de estimar o risco. No entanto, como acontece com todos os artigos QuantStart, quero construir esses modelos a partir de versões mais simples para que possamos ver como cada nova variante altera nossa capacidade preditiva. Apesar de AR, MA e ARMA serem modelos de séries temporais relativamente simples, eles são a base de modelos mais complicados, como a Média Mover Integrada Autoregressiva (ARIMA) e a família GARCH. Por isso, é importante estudá-los. Uma das nossas primeiras estratégias de negociação na série de artigos da série temporal será combinar ARIMA e GARCH para prever antecipadamente os preços n. No entanto, teremos que esperar até discutirmos ARIMA e GARCH separadamente antes de aplicá-los a uma estratégia real. Como vamos prosseguir Neste artigo, vamos descrever alguns novos conceitos de séries temporais que bem precisam dos métodos restantes, a saber, rigorosos Estacionária e o critério de informação Akaike (AIC). Subsequentemente a esses novos conceitos, seguiremos o padrão tradicional para o estudo de novos modelos de séries temporais: Justificação - A primeira tarefa é fornecer uma razão pela qual estavam interessados ​​em um modelo particular, como quants. Por que estamos apresentando o modelo da série temporal? Que efeitos ele pode capturar? O que ganhamos (ou perdemos) adicionando em complexidade extra Definição - Precisamos fornecer a definição matemática completa (e notação associada) do modelo da série temporal para minimizar Qualquer ambiguidade. Propriedades de segunda ordem - Vamos discutir (e, em alguns casos, derivar) as propriedades de segunda ordem do modelo da série temporal, que inclui sua média, sua variação e sua função de autocorrelação. Correlograma - Usaremos as propriedades de segunda ordem para plotar um correlograma de uma realização do modelo de séries temporais para visualizar seu comportamento. Simulação - Vamos simular as realizações do modelo da série temporal e, em seguida, ajustar o modelo a essas simulações para garantir que possamos implementações precisas e entender o processo de montagem. Dados financeiros reais - Ajudaremos o modelo da série temporal a dados financeiros reais e consideraremos o correlograma dos resíduos para ver como o modelo explica a correlação serial na série original. Previsão - Vamos criar previsões n-passo a frente do modelo da série temporal para realizações específicas, a fim de produzir sinais de negociação. Quase todos os artigos que escrevo em modelos de séries temporais cairão nesse padrão e nos permitirá comparar facilmente as diferenças entre cada modelo à medida que adicionamos mais complexidade. Começamos por analisar a estacionária rigorosa e a AIC. Estritamente estacionário Nós fornecemos a definição de estacionaria no artigo sobre a correlação em série. No entanto, como vamos entrar no reino de muitas séries financeiras, com várias freqüências, precisamos garantir que nossos (eventuais) modelos levem em consideração a volatilidade variável no tempo dessas séries. Em particular, precisamos considerar sua heterossextibilidade. Encontraremos esse problema quando tentarmos ajustar certos modelos a séries históricas. Geralmente, nem toda a correlação em série nos resíduos de modelos ajustados pode ser contabilizada sem levar em consideração a heterocedasticidade. Isso nos leva de volta à estacionança. Uma série não é estacionária na variância se tiver volatilidade variável no tempo, por definição. Isso motiva uma definição mais rigorosa de estacionaria, a saber, a estacionalização rigorosa: Estritamente estacionário Série A modelo de série temporal, é estritamente estacionário se a distribuição estatística conjunta dos elementos x, ldots, x é a mesma que a de xm, ldots, xm, Forall ti, m. Pode-se pensar nessa definição como simplesmente que a distribuição da série temporal é inalterada para qualquer mudança abrupta no tempo. Em particular, a média e a variância são constantes no tempo para uma série estritamente estacionária e a autocovariância entre xt e xs (digamos) depende apenas da diferença absoluta de t e s, t-s. Nós estaremos revendo estritamente séries estacionárias em postagens futuras. O Critério de Informação Akaike mencionado em artigos anteriores que eventualmente precisamos considerar como escolher entre os melhores modelos separados. Isto é verdade não só da análise das séries temporais, mas também da aprendizagem por máquinas e, mais amplamente, das estatísticas em geral. Os dois principais métodos que usaremos (por enquanto) são o Critério de Informação Akaike (AIC) e o Critério de Informação Bayesiano (à medida que avançamos com nossos artigos sobre Estatísticas Bayesianas). Bem, considere brevemente o AIC, pois será usado na Parte 2 do artigo ARMA. AIC é essencialmente uma ferramenta para auxiliar na seleção do modelo. Ou seja, se temos uma seleção de modelos estatísticos (incluindo séries temporais), a AIC estima a qualidade de cada modelo em relação aos outros que temos disponível. Baseia-se na teoria da informação. Que é um tópico muito interessante e profundo que, infelizmente, não podemos entrar em detalhes demais. Ele tenta equilibrar a complexidade do modelo, o que significa, neste caso, o número de parâmetros, com o quão bem se ajusta aos dados. Permite fornecer uma definição: Critério de informação de Akaike Se tomarmos a função de verossimilhança para um modelo estatístico, que possui parâmetros k e L maximiza a probabilidade. Então o Critério de Informação de Akaike é dado por: O modelo preferido, a partir de uma seleção de modelos, tem o mínimo AIC do grupo. Você pode ver que o AIC cresce à medida que o número de parâmetros, k, aumenta, mas é reduzido se a probabilidade de log negativa aumentar. Essencialmente, penaliza modelos que são superados. Vamos criar modelos AR, MA e ARMA de diferentes ordens e uma maneira de escolher o melhor modelo que se encaixa em um determinado conjunto de dados é usar o AIC. Isto é o que bem estar fazendo no próximo artigo, principalmente para modelos ARMA. Autoregressivo (AR) Modelos de ordem p O primeiro modelo que consideramos, que constitui a base da Parte 1, é o modelo Autoregressivo de ordem p, muitas vezes reduzido a AR (p). No artigo anterior consideramos a caminhada aleatória. Onde cada termo, xt é dependente unicamente do termo anterior, x e um termo estocástico de ruído branco, wt: o modelo autorregressivo é simplesmente uma extensão da caminhada aleatória que inclui termos mais atrasados ​​no tempo. A estrutura do modelo é linear. Esse é o modelo depende linearmente dos termos anteriores, com coeficientes para cada termo. É aí que o regressivo vem de autoregressivo. É essencialmente um modelo de regressão onde os termos anteriores são os preditores. Modelo Autoregressivo de ordem p Um modelo de série temporal,, é um modelo de ordem autoregressivo p. AR (p), se: begin xt alpha1 x ldots alphap x wt sum p alphai x wt end Onde está o ruído branco e alphai em mathbb, com alphap neq 0 para um processo autorregressivo de ordem p. Se considerarmos o operador de deslocamento para trás. (Veja o artigo anterior), então podemos reescrever o acima como uma função theta de: begin thetap () xt (1 - alpha1 - alpha2 2 - ldots - alphap) xt wt end Talvez a primeira coisa a notar sobre o modelo AR (p) É que uma caminhada aleatória é simplesmente AR (1) com alfa 1 igual à unidade. Como afirmamos acima, o modelo autogressivo é uma extensão da caminhada aleatória, então isso faz sentido. É direto fazer previsões com o modelo AR (p), para qualquer momento t, uma vez que temos os coeficientes de alphai determinados, nossa estimativa Simplesmente se torna: começo chapéu t alpha1 x ldots alphap x end Portanto, podemos fazer previsões n-passo a frente produzindo chapéu, chapéu, chapéu, etc. até o chapéu. Na verdade, uma vez que consideremos os modelos ARMA na Parte 2, usaremos a função de predição R para criar previsões (juntamente com bandas de intervalo de confiança de erro padrão) que nos ajudarão a produzir sinais comerciais. Stationarity para Processos Autoregressivos Um dos aspectos mais importantes do modelo AR (p) é que nem sempre é estacionário. Na verdade, a estacionariedade de um modelo específico depende dos parâmetros. Eu já toquei isso antes em um artigo anterior. Para determinar se um processo AR (p) está parado ou não, precisamos resolver a equação característica. A equação característica é simplesmente o modelo autorregressivo, escrito em forma de deslocamento para trás, definido como zero: resolvemos esta equação. Para que o processo autoregressivo particular seja estacionário, precisamos de todos os valores absolutos das raízes dessa equação para exceder a unidade. Esta é uma propriedade extremamente útil e nos permite calcular rapidamente se um processo AR (p) está parado ou não. Vamos considerar alguns exemplos para tornar esta idéia concreta: Random Walk - O processo AR (1) com alpha1 1 tem a equação característica theta 1 -. Claramente, isso tem a raiz 1 e, como tal, não é estacionário. AR (1) - Se escolhermos alpha1 frac, obtemos xt frac x wt. Isso nos dá uma equação característica de 1 - frac 0, que tem uma raiz de 4 gt 1 e, portanto, esse processo particular de AR (1) é estacionário. AR (2) - Se formamos alpha1 alpha2 frac, obtemos xt frac x frac x wt. Sua equação característica torna-se - frac () () 0, que dá duas raízes de 1, -2. Uma vez que esta tem uma unidade de raiz é uma série não estacionária. No entanto, outras séries AR (2) podem ser estacionárias. Propriedades de segunda ordem A média de um processo AR (p) é zero. No entanto, as autocovariâncias e autocorrelações são dadas por funções recursivas, conhecidas como equações de Yule-Walker. As propriedades completas são dadas abaixo: begin mux E (xt) 0 end begin gammak soma p alphai gamma, enspace k 0 end begin rhok soma p alphai rho, enspace k 0 end Observe que é necessário conhecer os valores dos parâmetros alphai antes de Calculando as autocorrelações. Agora que declaramos as propriedades de segunda ordem, podemos simular várias ordens de AR (p) e traçar os correlogramas correspondentes. Simulações e Correlogramas Comece com um processo AR (1). Isso é semelhante a uma caminhada aleatória, exceto que o alfa1 não tem igual a unidade. Nosso modelo terá alfa1 0,6. O código R para criar esta simulação é o seguinte: Observe que nosso loop for é realizado de 2 a 100, não de 1 a 100, como xt-1 quando t0 não é indexável. Da mesma forma, para processos AR (p) de ordem superior, t deve variar de p para 100 neste loop. Podemos traçar a realização deste modelo e seu correlograma associado usando a função de layout: agora tentamos ajustar um processo AR (p) aos dados simulados que acabamos de gerar, para ver se podemos recuperar os parâmetros subjacentes. Você pode lembrar que realizamos um procedimento semelhante no artigo sobre ruídos brancos e passeios aleatórios. Na medida em que R fornece um comando útil ar para caber modelos autorregressivos. Podemos usar esse método para primeiro nos dizer a melhor ordem p do modelo (conforme determinado pela AIC acima) e nos fornecer estimativas de parâmetros para o alfai, que podemos usar para formar intervalos de confiança. Para completar, vamos recriar a série x: agora usamos o comando ar para ajustar um modelo autoregressivo ao nosso processo de AR (1) simulado, usando a estimativa de máxima verossimilhança (MLE) como procedimento de montagem. Em primeiro lugar, extrairemos a melhor ordem obtida: o comando ar determinou com sucesso que nosso modelo de série temporal subjacente é um processo AR (1). Podemos então obter as estimativas dos parâmetros alfai: o procedimento MLE produziu uma estimativa, o chapéu 0.523, que é ligeiramente inferior ao valor verdadeiro de alpha1 0.6. Finalmente, podemos usar o erro padrão (com a variância assintótica) para construir 95 intervalos de confiança em torno do (s) parâmetro (s) subjacente (s). Para conseguir isso, simplesmente criamos um vetor c (-1,96, 1,96) e, em seguida, multiplicamos pelo erro padrão: o parâmetro verdadeiro se enquadra no intervalo de confiança 95, como esperamos do fato de que geramos a realização do modelo especificamente . Que tal se mudarmos o alpha1 -0.6. Como antes, podemos ajustar um modelo de AR (p) usando ar: Mais uma vez, recuperamos a ordem correta do modelo, com uma boa estimativa de chapéu -0.597 de alfa1-0.6. Também vemos que o parâmetro verdadeiro cai novamente no intervalo de confiança 95. Permite adicionar mais complexidade aos nossos processos autorregressivos, simulando um modelo de ordem 2. Em particular, estabelecemos alfa10.666, mas também definimos alpha2 -0.333. Heres o código completo para simular e traçar a realização, bem como o correlograma para tal série: como antes, podemos ver que o correlograma difere significativamente do ruído branco, como esperam. Existem picos estatisticamente significativos em k1, k3 e k4. Mais uma vez, iriam usar o comando ar para ajustar um modelo AR (p) à nossa realização AR (2) subjacente. O procedimento é semelhante ao ajuste AR (1): a ordem correta foi recuperada e as estimativas do parâmetro hat 0.696 e hat -0.395 não estão muito longe dos valores dos parâmetros verdadeiros de alpha10.666 e alpha2-0.333. Observe que recebemos uma mensagem de aviso de convergência. Observe também que R realmente usa a função arima0 para calcular o modelo AR. Além disso, aprender em artigos subseqüentes, os modelos AR (p) são simplesmente modelos ARIMA (p, 0, 0) e, portanto, um modelo AR é um caso especial de ARIMA sem componente de média móvel (MA). Bem, também estar usando o comando arima para criar intervalos de confiança em torno de múltiplos parâmetros, e é por isso que negligenciamos fazê-lo aqui. Agora que nós criamos alguns dados simulados, é hora de aplicar os modelos AR (p) às séries temporais de ativos financeiros. Dados Financeiros Amazon Inc. Comece pela obtenção do preço das ações da Amazon (AMZN) usando o quantmod como no último artigo: A primeira tarefa é sempre traçar o preço para uma breve inspeção visual. Neste caso, bem, use os preços de fechamento diários: você notará que o quantmod adiciona alguma formatação para nós, ou seja, a data e um gráfico um pouco mais bonito do que os gráficos R habituais: agora vamos tomar os retornos logarítmicos da AMZN e depois o primeiro Diferença de ordem da série para converter a série de preços original de uma série não estacionária para uma (potencialmente) estacionária. Isso nos permite comparar maçãs com maçãs entre ações, índices ou qualquer outro recurso, para uso em estatísticas multivariadas posteriores, como no cálculo de uma matriz de covariância. Se você gostaria de uma explicação detalhada sobre o motivo pelo qual os retornos de registro são preferíveis, dê uma olhada neste artigo na Quantividade. Vamos criar uma nova série, amznrt. Para manter nossos retornos de log diferentes: Mais uma vez, podemos traçar a série: nesta etapa, queremos traçar o correlograma. Olhamos para ver se a série diferenciada se parece com ruído branco. Se não existir, então, há uma correlação serial inexplicada, que pode ser explicada por um modelo autorregressivo. Observamos um pico estatisticamente significativo em k2. Portanto, existe uma possibilidade razoável de correlação serial inexplicada. Esteja ciente de que isso pode ser devido ao viés de amostragem. Como tal, podemos tentar ajustar um modelo AR (p) à série e produzir intervalos de confiança para os parâmetros: Ajustar o modelo ar autoregressivo à série de preços de registro diferenciada de primeira ordem produz um modelo AR (2), com chapéu -0.0278 E chapéu -0.0687. Eu também emitido a variância aestotica para que possamos calcular erros padrão para os parâmetros e produzir intervalos de confiança. Queremos ver se zero faz parte do intervalo de confiança 95, como se fosse, reduz a nossa confiança de que temos um verdadeiro processo subjacente AR (2) para a série AMZN. Para calcular os intervalos de confiança no nível 95 para cada parâmetro, usamos os seguintes comandos. We take the square root of the first element of the asymptotic variance matrix to produce a standard error, then create confidence intervals by multiplying it by -1.96 and 1.96 respectively, for the 95 level: Note that this becomes more straightforward when using the arima function, but well wait until Part 2 before introducing it properly. Thus we can see that for alpha1 zero is contained within the confidence interval, while for alpha2 zero is not contained in the confidence interval. Hence we should be very careful in thinking that we really have an underlying generative AR(2) model for AMZN. In particular we note that the autoregressive model does not take into account volatility clustering, which leads to clustering of serial correlation in financial time series. When we consider the ARCH and GARCH models in later articles, we will account for this. When we come to use the full arima function in the next article, we will make predictions of the daily log price series in order to allow us to create trading signals. SampP500 US Equity Index Along with individual stocks we can also consider the US Equity index, the SampP500. Lets apply all of the previous commands to this series and produce the plots as before: We can plot the prices: As before, well create the first order difference of the log closing prices: Once again, we can plot the series: It is clear from this chart that the volatility is not stationary in time. This is also reflected in the plot of the correlogram. There are many peaks, including k1 and k2, which are statistically significant beyond a white noise model. In addition, we see evidence of long-memory processes as there are some statistically significant peaks at k16, k18 and k21: Ultimately we will need a more sophisticated model than an autoregressive model of order p. However, at this stage we can still try fitting such a model. Lets see what we get if we do so: Using ar produces an AR(22) model, i. e. a model with 22 non-zero parameters What does this tell us It is indicative that there is likely a lot more complexity in the serial correlation than a simple linear model of past prices can really account for. However, we already knew this because we can see that there is significant serial correlation in the volatility. For instance, consider the highly volatile period around 2008. This motivates the next set of models, namely the Moving Average MA(q) and the Autoregressive Moving Average ARMA(p, q). Well learn about both of these in Part 2 of this article. As we repeatedly mention, these will ultimately lead us to the ARIMA and GARCH family of models, both of which will provide a much better fit to the serial correlation complexity of the Samp500. This will allows us to improve our forecasts significantly and ultimately produce more profitable strategies. Click Below To Learn More About. The information contained on this web site is the opinion of the individual authors based on their personal observation, research, and years of experience. The publisher and its authors are not registered investment advisers, attorneys, CPAs or other financial service professionals and do not render legal, tax, accounting, investment advice or other professional services. The information offered by this web site is general education only. Because each individuals factual situation is different the reader should seek his or her own personal adviser. Neither the author nor the publisher assumes any liability or responsibility for any errors or omissions and shall have neither liability nor responsibility to any person or entity with respect to damage caused or alleged to be caused directly or indirectly by the information contained on this site. Use at your own risk. Additionally, this website may receive financial compensation from the companies mentioned through advertising, affiliate programs or otherwise. Rates and offers from advertisers shown on this website change frequently, sometimes without notice. While we strive to maintain timely and accurate information, offer details may be out of date. Visitors should thus verify the terms of any such offers prior to participating in them. The author and its publisher disclaim responsibility for updating information and disclaim responsibility for third-party content, products, and services including when accessed through hyperlinks andor advertisements on this site.

No comments:

Post a Comment