Thursday 23 November 2017

Flytting Gjennomsnitt Partiell Autokorrelasjon


ARIMA-modeller Introduksjon XLMiner muliggjør analyse av datasett ved bruk av trendfunnsteknikker (autokorrelasjon og delvis autokorrelasjon) og omfattende modelleringsmetoder (ARIMA og eksponensiell utjevning). ARIMA AutoRegressive Integrated Moving-Gjennomsnittlig modell er en av de mest populære modelleringsmetodene som brukes i prognoser for tidsserier, hovedsakelig på grunn av fokus på bruk av data autokorrelasjonsteknikker for å oppnå høykvalitetsmodeller. XLMiner utnytter alle aspekter av ARIMA-implementering, inkludert variabelvalg, sesongmessige ikke-sesongmessige parameterdefinisjoner og avanserte alternativer, for eksempel iterasjonsmaksimum, utdata og prognosemuligheter. ARIMA-modellering i XLMiner En ARIMA-modell er en regresjonstypemodell som inkluderer autokorrelasjon. Ved estimering av ARIMA-koeffisientene er den grunnleggende forutsetningen at dataene er stasjonær betydning, trenden eller sesongmessigheten kan ikke påvirke variansen. Dette er vanligvis ikke sant. For å oppnå stasjonær data må XLMiner søke differensiering: vanlig, sesongmessig eller begge deler. Etter at XLMiner passer til modellen, vil ulike resultater være tilgjengelige. Kvaliteten på modellen kan evalueres ved å sammenligne tidsplanen for de faktiske verdiene med de prognostiserte verdiene. Hvis begge kurvene er tette, kan det antas at modellen passer bra. Modellen bør avsløre noen trender og sesongmessige forhold, hvis noen eksisterer. Deretter skal en analyse av residualene formidle hvorvidt modellen passer godt: tilfeldig gjenstander betyr at modellen er nøyaktig, men hvis residuene viser en trend, kan modellen være unøyaktig. Montering av en ARIMA-modell med parametere (0,1,1) gir de samme resultatene som eksponensiell utjevning, mens bruk av parametrene (0,2,2) gir de samme resultatene som dobbel eksponensiell utjevning. Slik får du tilgang til ARIMA-innstillinger i Excel Start Excel. Klikk på XLMINER PLATFORM på verktøylinjen. I båndet, klikk ARIMA. I rullegardinmenyen velger du ARIMA Model. ARIMA Modell Sammendrag ARIMA. AutoRegressive Integrated Moving Average. Prognosemodell brukt i tidsserieanalyse. ARIMA Parameter Syntax. ARIMA (p, d, q) hvor p antall auto-regressive termer, d antall forskjeller uten sesong, og q antall glidende gjennomsnittlige termer. Tidsserieeksempel. Se et eksempel på hvordan en ARIMA-modell kan brukes. Bruke Time Series. Slik bruker du tidsseriefunksjonsfunksjonalitet innen XLMiner. Utjevningsmodeller. Hvordan utjevningsteknikker kan brukes til prognosemodeller for tidsserier. XLMiner Online Help. Hjelpesystem som dekker funksjonalitet i XLMiner-modulen. GEOS 585A, Anvendt tidsserieanalyse Telefon: (520) 621-3457 Faks: (520) 621-8229 Kontortid Fredag, 1: 00-6: 00 PM (vennligst send epost til planleggingsmøte ) Kursbeskrivelse Analyseverktøy i tid - og frekvensdomenene er introdusert i sammenheng med prøve tidsserier. Jeg bruker et datasett av prøve tidsserier for å illustrere metoder, og endre datasett hvert semester kurset tilbys. I år kommer prøvedatabasen fra et NSF-prosjekt på snøscootervariabilitet i American River Basin of California. Dette datasettet inneholder trekringschronologier, klimaindekser, strømningsrekord og tidsserier av snøvannekvivalenter målt på snøbanestasjoner. Du vil sette sammen dine egne tidsserier for bruk i kurset. Disse kan være fra ditt eget forskningsprosjekt. Tilbake til toppen av siden Dette er et innledende kurs, med vekt på praktiske aspekter av tidsserieanalyse. Metoder er hierarkisk introdusert - starter med terminologi og utforskende grafikk, flyttes til beskrivende statistikk, og slutter med grunnleggende modelleringsprosedyrer. Emner inkluderer detrending, filtrering, autoregressiv modellering, spektralanalyse og regresjon. Du bruker de første to ukene til å installere Matlab på din bærbare datamaskin, få en grunnleggende introduksjon til Matlab, og sette sammen datasett av tidsserier for kurset. Tolv emner, eller leksjoner er da dekket, hver tildelt en uke eller to klasseperioder. Tolv klasseoppgaver går sammen med emnene. Oppgaver består av å anvende metoder ved å kjøre forhåndskrevne Matlab-skript (programmer) på tidsseriene og tolke resultatene. Kurset er 3 studiepoeng for studenter på campus ved University of Arizona i Tucson, og 1 studiepoeng for nettstudenter. Eventuelle tidsserier med konstant tidsforhøyelse (f. eks. Dag, måned, år) er en kandidat til bruk i kurset. Eksempler er daglige nedbørsmålinger, sesongmessig total strømning, sommermiddelluftemperatur, årlige indekser av trevekst, indekser for sjøoverflatetemperatur og den daglige høyden for en busk. Som et resultat av å ta kurset, bør du: forstå grunnleggende tidsserier konsepter og terminologi være i stand til å velge tidsserie metoder som er hensiktsmessige til mål å kunne kritisk evaluere vitenskapelig litteratur som bruker tidsserie metoder dekket har bedre forståelse av tidsserie egenskaper av din eget datasett kunne kortfattet oppsummere resultatene av tidsserieanalysen skriftlig Forutsetninger Et introduksjonsstatistikkkurs Tilgang til en bærbar datamaskin med evne til å ha Matlab installert på den Tillatelse fra instruktøren (undergraduate og online studenter) Andre krav Hvis du er på et universitet i Arizona (UA) student på campus i Tucson, har du tilgang til Matlab og nødvendige verktøykasser via et UA-nettstedslisens som ingen kostnadsprogramvare. Ingen tidligere erfaring med Matlab er nødvendig, og dataprogrammering er ikke en del av kurset. Hvis du er online, ikke på campus på UA, vil du kunne ta kurset i vår 2017 semester som en iCourse. Du må sørge for at du har tilgang til Matlab og de nødvendige verktøykassaene (se nedenfor) på ditt sted. Tilgang til internett. Det er ingen papirutveksling i kurset. Notater og oppgaver blir utvekslet elektronisk og gjennomførte oppgaver sendes elektronisk via University of Arizona Desire2Learn (D2L) - systemet. Matlab versjon. Jeg oppdaterer skript og funksjoner nå og da ved hjelp av gjeldende nettstedslisensutgave av Matlab, og oppdateringene kan bruke Matlab-funksjoner som ikke er tilgjengelige i tidligere Matlab-utgivelser. For 2017 bruker jeg Matlab versjon 9.1.0.441655 (R2016b). Hvis du bruker en tidligere utgave, må du kontrollere at det er Matlab Release 2007b eller høyere. I tillegg til de viktigste Matlab-pakken, brukes fire verktøykasser: Statistikk, Signalbehandling, Systemidentifikasjon, og enten Spline (Matlab Release 2010a eller tidligere), eller Kurvefitting (Matlab Release 2010b eller senere) Tilgjengelighet Kurset tilbys i vårsemester hvert annet år (2015, 2017, etc.). Det er åpent for studenter og kan også bli tatt av bachelor seniorer med tillatelse fra instruktøren. Registrering av bosatte UA-studenter er avkortet til 18 for vårferie 2017. Et lite antall nettstudenter har også vanligvis blitt innkvartert ved å tilby kurset på ulike måter. Måten nå er iCourse-lokalet beskrevet ovenfor. Tilbake til toppen av siden Kursoversikt (leksjoner) Tidsplanen lar vanligvis om to uker for å samle data og bli kjent med Matlab. Deretter er en uke (to klasseperioder) viet til hver av de 12 leksjonene eller emnene. Klassen møtes tirsdag og torsdag. Et nytt emne blir introdusert tirsdag, og fortsetter påfølgende torsdag. Torsdagsklassen slutter med en oppgave og en demonstrasjon av å kjøre skriptet på mine prøvedata. Oppdraget er forfalt (må lastes opp av deg til D2L) før klassen følgende tirsdag. Den første 12 timers tirsdagsklasse brukes til veiledning av selvbedømmelse og gradering av oppdraget og opplasting av vurderte (graderte) oppgaver til D2L. De resterende 45 minuttene brukes til å introdusere neste emne. Du må ta med din bærbare til klassen på tirsdager. De 12 leksjonene eller emnene som er dekket av kurset er oppført i klassebeskrivelsen. Nettstudenter forventes å følge samme tidsplan for innlevering av oppdrag som hjemmehørende studenter, men har ikke tilgang til forelesningene. Innleverte oppgaver av elektroniske studenter er ikke selvbestemte, men er gradert av meg. Nettstudenter skal ha tilgang til D2L for innlevering av oppgaver. Vår 2017 semester. Klasse møtes to ganger i uken i 75 minutters økter, 9: 00-10: 15 TTh, i rom 424 (Konferanserom) av Bryant Bannister Tree-Ring Building (bygning 45B). Den første dagen i klassen er jan 12 (torsdag). Den siste dagen i klassen er 2. mai (tirsdag). Det er ingen klasse i løpet av uken av Spring Break (11-19 mars). Du analyserer data av eget valg i klassetildelingene. Som nevnt i kursoversikten. Det er mye fleksibilitet i valg av tidsserier. Jeg vil lage en katalog over passende tidsserier tilgjengelig, men det er best å fokusere kurset på ditt eget datasett. Den første oppgaven innebærer å kjøre et skript som lagrer dataene og metadataene du har samlet i matfilen, det opprinnelige formatet til Matlab. Etterfølgende oppdrag tegner data fra matfilen for tidsserieanalyse. Oppgaver De 12 emnene behandles sekventielt i løpet av semesteret, som dekker ca 15 uker. Om de første to ukene (4-5 klassemøter) brukes det noen introduksjonsmateriale, bestemmer seg for og samler tidsseriene, og klargjør Matlab på den bærbare datamaskinen. Hver uke etter det er viet til en av de 12 emnene. Hver oppgave består i å lese et kapittel av notater, kjører et tilhørende Matlab-skript som bruker utvalgte metoder for tidsserieanalyse til dataene dine, og skriver opp tolkningen av resultatene. Oppgaver krever forståelse av forelesningsemner samt evne til å bruke datamaskinen og programvaren. Du sender inn oppgaver ved å laste dem opp til D2L før tirsdagskursen når neste emne blir introdusert. Den første halvtime av den tirsdagsklassen brukes til veiledning av selvoppgave av oppgaven, inkludert opplasting av selvoppgraderte pdfs til D2L. Jeg sjekker en eller flere av de selvoppgraderte oppgavene hver uke (ved tilfeldig utvalg), og kan endre karakteren. For å finne ut hvordan du får tilgang til oppgaver, klikk på oppdragsfiler. Lesingene består av notater. Det er tolv sett med. pdf notater filer. en for hvert emne. Disse. pdf-filene kan nås via nettet. Mer informasjon om de ulike emnene som er dekket i kurset, finner du ved hjelp av referanser som er oppført på slutten av hvert kapittel av notater. Karakterene er helt basert på ytelse på oppgavene, som hver er verdt 10 poeng. Det er ingen eksamener. Det totale antall mulige poeng for de 12 emnene er 12 x 10 120. En karakter på A kreves 90-100 prosent av mulige poeng. En klasse på B krever 80-90 prosent. En klasse på C krever 70-80 prosent, og så videre. Karakterene tilordnes ved selvvurdering styrt av en rubrik presentert i klassen. Antall poeng opptjent skal merkes øverst på hver karakterisert oppgave. Oppgavens oppgave skal inneholde annotasjon av eventuelle markdowns med henvisning til et rubrikpunkt som er illustrert i klassen (f. eks. -0,5, rp3 angir fradrag på -0,5 på grunn av en feil relatert til rubrik punkt 3). Oppgaver, gitt i klassen på torsdag, vil Forfaller (opplastet til D2L av deg) før starten av klassen følgende tirsdag. Den første halvtimen på tirsdagens møteperiode vil bli dedikert til presentasjon av en klassifisering, selvvurdering av gjennomførte oppgaver og opplasting av selvoppgraderte oppgaver til D2L. Denne timeplanen gir deg 4 dager å fullføre og laste opp oppdraget til D2L før kl. 9.00 tirsdag. D2L holder oversikt over tidspunktet for oppdraget ble lastet opp, og ingen straff er vurdert så lenge den lastes opp før 9:00 på tirsdag for forfallsdato. Hvis du har noen planlagte behov for å være borte fra klassen (f. eks. Oppmøte på en konferanse), er du ansvarlig for opplasting av oppdraget ditt før klokken 09:00 tirsdag den forfaller, og for opplasting av selvgradert versjon kl. 10:15 den samme dagen. Med andre ord, timeplanen er den samme som for elevene som er i klassen. Hvis en nødsituasjon kommer opp (for eksempel får du influensa) og kan ikke gjøre oppdraget eller vurderingen på skjema, vennligst send meg en e-post, og vi vil nå noen overnatting. Ellers vil en straff på 5 poeng (halvparten av de totale tilgjengelige poengene for øvelsen) bli vurdert. Introduksjon til tidsserier organisering av data for analyse En tidsserie er bredt definert som hvilken som helst serie av målinger tatt på forskjellige tidspunkter. Noen grunnleggende beskrivende kategorier av tidsserier er 1) lang vs kort, 2) selv tids-trinn vs ujevnt tidsrom, 3) diskret vs kontinuerlig, 4) periodisk vs aperiodisk, 5) stasjonær vs ikke-stationær, og 6) univariate vs multivariate . Disse egenskapene samt den tidsmessige overlappingen av flere serier må vurderes ved valg av datasett for analyse i dette kurset. Du vil analysere dine egne tidsserier i kurset. De første trinnene er å velge disse seriene og lagre dem i strukturer i en matfil. Enhetlig lagring i utgangspunktet er praktisk for denne klassen, slik at oppmerksomheten da kan fokusere på å forstå tidsserie metoder, snarere feilsøking av datakode for å klargjøre dataene for analyse. En struktur er en Matlab-variabel som ligner på en database ved at innholdet nås av tekstfeltbetegnere. En struktur kan lagre data av forskjellige former. Et felt kan for eksempel være en numerisk tidsseriematriks, en annen kan være tekst som beskriver datakilden osv. I den første oppgaven kjører du et Matlab-skript som leser tidsseriene og metadataene fra ascii tekstfiler du forbereder på forhånd og lagrer dataene i Matlab strukturer i en enkelt matfil. I etterfølgende oppgaver vil du bruke tidsseriemetoder til dataene ved å kjøre Matlab-skript og funksjoner som laster matfilen og opererer på disse strukturene. Velg prøvedata som skal brukes til oppgaver i løpet av kurset. Les: (1) Notes1.pdf, (2) Komme i gang, tilgjengelig fra MATLAB-hjelpemenyen Svar: Kjør script geosa1.m og svar på spørsmålene som er oppført i filen i a1.pdf Slik skiller du kategoriene av tidsserier Slik starter du og avslutter MATLAB Slik skriver du inn MATLAB-kommandoer ved kommandoprompt Slik lager du figurer i figurvindu Slik eksporterer du tall til tekstbehandleren Forskjell mellom MATLAB-skript og funksjoner Slik kjører du skript og funksjoner form av en MATLAB struktur variabel Slik bruker du skriptet geosa1.m for å få et sett med tidsserier og metadata i MATLAB strukturer Sannsynlighetsfordelingen av en tidsserie beskriver sannsynligheten for at en observasjon faller inn i et spesifisert verdierområde. En empirisk sannsynlighetsfordeling for en tidsserie kan nås ved å sortere og rangere verdiene av serien. Kvantiler og prosentiler er nyttig statistikk som kan tas direkte fra den empiriske sannsynlighetsfordelingen. Mange parametriske statistiske tester antar at tidsserien er et utvalg fra en befolkning med en bestemt befolkningssannsynlighetsfordeling. Ofte antas befolkningen å være normal. Dette kapittelet inneholder noen grunnleggende definisjoner, statistikk og plott knyttet til sannsynlighetsfordelingen. I tillegg er det innført en test (Lilliefors test) for å teste om en prøve kommer fra en normal fordeling med uspesifisert gjennomsnitt og varians. Svar: Kjør script geosa2.m og svar på spørsmålene som er oppført i filen i a2.pdf Definisjoner av termer: tidsserier, stasjonar, sannsynlighetstetthet, distribusjonsfunksjon, kvantilstand, spredning, plassering, gjennomsnitt, standardavvik og skjevhet. Hvordan tolke mest verdifulle grafikk i tidsserieanalyse - tidsseriens plot Hvordan tolke boksplot, histogram og normal sannsynlighetsdiagram Parametre og form av normalfordeling Lilliefors test for normalitet: grafisk beskrivelse, antagelser, null og alternative hypoteser Hensyn til tolkning av signifikansnivåer av statistiske tester når tidsserier ikke er tilfeldige i tid Hvordan søke geosa2.m for å sjekke distribusjonsegenskapene til en tidsserie og teste serien for normalitet Autokorrelasjon refererer til korrelasjonen av en tidsserie med egne fortid og fremtidige verdier. Autokorrelasjon kalles også noen ganger forsinket korrelasjon eller seriell korrelasjon. som refererer til sammenhengen mellom medlemmer av en rekke tall som er arrangert i tide. Positiv autokorrelasjon kan betraktes som en bestemt form for utholdenhet. en tendens til at et system forblir i samme tilstand fra en observasjon til den neste. For eksempel er sannsynligheten for at morgenen blir regnfull, større hvis det i dag er regnfull enn om det i dag er tørt. Geofysiske tidsserier er ofte autokorrelert på grunn av treghet eller overføringsprosesser i det fysiske systemet. For eksempel kan de langsomt utviklende og bevegelige lavtrykkssystemene i atmosfæren gi utholdenhet til daglig nedbør. Eller den langsomme dreneringen av grunnvannsreserver kan føre til korrelasjon til suksessive årlige strømmer av en elv. Eller lagrede fotosyntater kan gi sammenheng med suksessive årlige verdier av tre-ring-indekser. Autokorrelasjon kompliserer anvendelsen av statistiske tester ved å redusere antall uavhengige observasjoner. Autokorrelasjon kan også komplisere identifiseringen av signifikant kovarians eller korrelasjon mellom tidsserier (for eksempel utfelling med en treringsserie). Autokorrelasjon kan utnyttes for spådommer: En autokorrelert tidsserie er forutsigbar, probabilistisk fordi fremtidige verdier avhenger av nåværende og tidligere verdier. Tre verktøy for å vurdere autokorrelasjonen av en tidsserie er (1) tidsserien, (2) den forsinkede scatterplot, og (3) autokorrelasjonsfunksjonen. Svar: Kjør script geosa3.m og svar på spørsmål som er oppført i filen i a3.pdf Definisjoner: autokorrelasjon, utholdenhet, seriell korrelasjon, autokorrelasjonsfunksjon (acf), autokovariansfunksjon (acvf), effektiv sample size Hvordan gjenkjenne autokorrelasjon i tidsseriene plot Hvordan bruke lagged scatterplots for å vurdere autocorrelation Hvordan tolke den plottet acf Hvordan justere prøvestørrelsen for autokorrelasjon Matematisk definisjon av autokorrelasjonsfunksjonen Vilkår som påvirker bredden på det beregnede konfidensbåndet av acf Differansen mellom en ensidig og to - sidig test av signifikant lag-1 autokorrelasjon Hvordan søke geos3.m for å studere autokorrelasjon av en tidsserie Spekteret av en tidsserier er fordelingen av varians av serien som en funksjon av frekvens. Målet med spektralanalyse er å estimere og studere spekteret. Spekteret inneholder ingen ny informasjon utover det i autokovariansfunksjonen (acvf), og faktisk kan spekteret beregnes matematisk ved transformasjon av acvf. Men spektret og ACVF presenterer informasjonen om variansen av tidsseriene fra komplementære synspunkter. Akkumulatoren oppsummerer informasjon i tidsdomene og spekteret i frekvensdomenet. Svar: Kjør script geosa4.m og svar på spørsmål som er oppført i filen i a4.pdf Definisjoner: frekvens, periode, bølgelengde, spektrum, Nyquist-frekvens, Fourier-frekvenser, båndbredde Grunner til analyse av et spektrum Hvordan tolke et plottet spektrum i form av distribusjon av varians Forskjellen mellom et spektrum og et normalisert spektrum Definisjon av forsinkelsesvinduet som brukt til å estimere spekteret ved hjelp av Blackman-Tukey-metoden Hvordan valg av lagvindu påvirker båndbredden og variansen av estimert spektrum Hvordan definerer et hvitt støyspektrum og autoregressivt spektrum Hvordan skisse noen typiske spektrale former: hvit støy, autoregressiv, kvasjonsperiodisk, lavfrekvent, høyfrekvente Hvordan bruke geosa4.m til å analysere spekteret av en tidsserie med Blackman-Tukey-metoden Autoregressive-Moving Gjennomsnittlig (ARMA) modellering Autoregressive-moving-average (ARMA) - modeller er matematiske modeller av persistensen, eller autokorrelasjon, i en tidsserie. ARMA-modeller er mye brukt i hydrologi, dendrochronology, økonometri og andre felt. Det er flere mulige grunner for å tilpasse ARMA-modeller til data. Modellering kan bidra til å forstå det fysiske systemet ved å avsløre noe om den fysiske prosessen som bygger utholdenhet i serien. For eksempel kan en enkel fysisk vannbalansemodell bestående av betingelser for nedbørsproduksjon, fordampning, infiltrering og grunnvannslager vises for å gi en strømstrømserie som følger en bestemt form for ARMA-modell. ARMA-modeller kan også brukes til å forutse atferd av en tidsserie fra tidligere verdier alene. En slik prediksjon kan brukes som en basislinje for å vurdere mulig betydning av andre variabler til systemet. ARMA-modeller er mye brukt til å forutsi økonomiske og industrielle tidsserier. ARMA-modeller kan også brukes til å fjerne utholdenhet. I dendrokronologi, for eksempel, brukes ARMA modellering rutinemessig for å generere gjenværende kronologier tidsserier av ringbreddeindeks uten avhengighet av tidligere verdier. Denne operasjonen, som kalles prewhitening, er ment å fjerne biologisk relatert persistens fra serien, slik at gjenværende kan være mer egnet for å studere påvirkning av klima og andre eksterne miljøfaktorer på trevekst. Svar: Kjør script geosa5.m og svar på spørsmål som er oppført i filen i a5.pdf Funksjonsformen til de enkleste AR - og ARMA-modellene Hvorfor slike modeller refereres til som autoregressive eller bevegelige gjennomsnitt De tre trinnene i ARMA-modellering Diagnostiske mønstre av autokorrelasjon og delvise autokorrelasjonsfunksjoner for en AR (1) tidsserie Definisjon av den endelige prediksjonsfeilen (FPE) og hvordan FPE brukes til å velge en best ARMA-modell Definisjon av Portmanteau-statistikken, og hvordan den og gjenstanden for residualer kan være brukes til å vurdere om en ARMA-modell effektivt modellerer utholdenheten i en serie. Hvordan prinsippet om parsimon brukes i ARMA-modellering. Definisjon av forvitring. Hvordan prewhitening påvirker (1) utseendet av en tidsserie, og (2) spekteret av en tidsserie Slik bruker du geosa5.m til ARMA-modellen en tidsserie Spektralanalyse - glatt periodogrammetode Det finnes mange tilgjengelige metoder for å estimere spektra av en tidsserie. I leksjon 4 så vi på Blackman-Tukey-metoden, som er basert på Fourier-transformasjon av den glatte, avkortede autokovariansfunksjonen. Den glattede periodogrammetoden omgår transformasjonen av acf ved direkte Fourier-transformasjon av tidsserier og beregning av råperiodogrammet, en funksjon som først ble introdusert på 1800-tallet for studier av tidsserier. Råperiodogrammet glattes ved å bruke kombinasjoner eller spenner av ett eller flere filtre for å produsere estimert spektrum. Glattheten, oppløsningen og variansen av spektralestimatene styres ved valg av filtre. En mer aksentuert utjevning av det rå periodogrammet gir et underliggende jevnt varierende spektrum, eller null kontinuum, mot hvilken spektrale topper kan testes for betydning. Denne tilnærmingen er et alternativ til spesifikasjonen av en funksjonell form for null-kontinuumet (for eksempel AR-spektrum). Svar: Kjør skript geosa6.m og svar på spørsmål som er oppført i filen i a6.pdf Definisjoner: Rå periodogram, Daniell filter, Spenning av filter, null kontinuum jevnhet, Stabilitet og oppløsning av spektrum tapering, polstring, Lekkasje De fire hovedtrinnene i estimering Spekteret ved det glatte periodogrammet Hvordan virkningen av filtervalg spenner over glatthet, stabilitet og oppløsning av spekteret Hvordan null-kontinuum brukes til testing for betydning av spektraltoppene Hvordan bruke geosa6.m for å estimere spekteret av tid serie ved den glatte periodogrammetoden og test for periodicitet ved en spesifisert frekvens. Trend i en tidsserie er en langsom, gradvis endring i noen egenskap av serien over hele intervallet som undersøkes. Trend er noen ganger løst definert som en langsiktig endring i gjennomsnittet (figur 7.1), men kan også referere til endring i andre statistiske egenskaper. For eksempel har tre-ring-serien av målt ringbredde ofte en tendens i varians så vel som gjennomsnittlig (figur 7.2). I tradisjonell tidsserieanalyse ble en tidsserie nedbrutt i trend, sesongmessige eller periodiske komponenter, og uregelmessige svingninger, og de ulike delene ble studert separat. Moderne analyseteknikker behandler ofte serien uten slik rutinemessig dekomponering, men det er ofte nødvendig med separat vurdering av trenden. Detrending er den statistiske eller matematiske operasjonen for å fjerne trenden fra serien. Avhending brukes ofte for å fjerne en funksjon som antas å forvride eller skjule forholdet av interesse. I klimatologi kan for eksempel en temperaturutvikling på grunn av urban oppvarming skjule et forhold mellom skyighet og lufttemperatur. Avhending brukes også noen ganger som et forbehandlingstrinn for å forberede tidsserier for analyse ved hjelp av metoder som antar stasjonar. Mange alternative metoder er tilgjengelige for detrending. Enkel lineær trend i gjennomsnitt kan fjernes ved å subtrahere en rett linje med minst kvadrater. Mer kompliserte trender kan kreve forskjellige prosedyrer. For eksempel brukes den kubiske utjevningssplineen vanligvis i dendrokronologi for å passe og fjerne ringenes bredde som kanskje ikke er lineær, eller ikke engang monotonisk økende eller avtagende over tid. Ved å studere og fjerne trenden er det viktig å forstå effekten av detrending på tidsseriens spektrale egenskaper. Denne effekten kan oppsummeres av frekvensresponsen av avvikende funksjon. Svar: Kjør skript geosa7.m og svar på spørsmål som er oppført i filen i a7.pdf Definisjoner: frekvensrespons, spline, kubisk utjevning spline Fordeler og ulemper med forholdet mot forskjellskonjunktur Fortolkning av termer i ligningen for spline-parameteren Hvordan velge en spline interaktivt fra ønsket frekvensrespons Hvordan spekteret påvirkes av detrending Hvordan måle viktigheten av trendkomponenten i en tidsserie Hvordan bruke geosa7.m for å interaktivt velge en spline-avvikende funksjon og avverge en tidsserie Det estimerte spektrum av en tid serien gir fordelingen av variansen som en funksjon av frekvensen. Avhengig av formålet med analysen, kan enkelte frekvenser være av større interesse enn andre, og det kan være nyttig å redusere amplitude av variasjoner ved andre frekvenser ved å statistisk filtrere dem ut før du ser og analyserer serien. For eksempel kan høyfrekvente (år til år) variasjoner i en målrettet utslippsregistrering av et vannområde være relativt ubetydelig med vannforsyning i et basseng med store reservoarer som kan lagre flere års gjennomsnittlig årlig avrenning. Hvor lavfrekvensvariasjoner er av hovedinteresse, er det ønskelig å glatte utladningsrekordet for å eliminere eller redusere kortvarige svingninger før bruk av utladningsrekordet for å studere betydningen av klimatiske variasjoner i vannforsyningen. Utjevning er en form for filtrering som produserer en tidsserie hvor betydningen av spektrale komponenter ved høye frekvenser reduseres. Elektriske ingeniører kaller denne typen filter et lavpassfilter, fordi lavfrekvensvariasjonene får passere gjennom filteret. I et lavpasfilter påvirkes lavfrekvente (langvarige) bølger knapt av utjevningen. Det er også mulig å filtrere en serie slik at lavfrekvensvariasjonene blir redusert og høyfrekvensvariasjonene upåvirket. Denne typen filter kalles et høypassfilter. Avhending er en form for høypassfiltrering: Den tilpassede trendlinjen sporer de laveste frekvensene, og residuene fra trendlinjen har hatt de lave frekvensene fjernet. En tredje type filtrering, som kalles bandpass-filtrering, reduserer eller filtrerer ut både høye og lave frekvenser, og etterlater noe mellomfrekvensbånd relativt upåvirket. I denne leksjonen dekker vi flere metoder for utjevning, eller lavpassfiltrering. Vi har allerede diskutert hvordan den kubiske utjevningsspline kan være nyttig for dette formålet. Fire andre typer filtre diskuteres her: 1) Enkel glidende gjennomsnitt, 2) binomial, 3) Gaussisk og 4) Windowing (Hamming metode). Betraktninger ved å velge en type lavpassfilter er ønsket frekvensrespons og spenningen eller bredden av filteret. Svar: Kjør script geosa8.m og svar på spørsmål som er oppført i filen i a8.pdf Definisjoner: filter, filtervekter, filterspenning, lavpassfilter, høypassfilter, filterfilterfrekvensrespons for et filter filteret er relatert til den gaussiske distribusjonen. Hvordan lage et enkelt binomialfilter manuelt (uten datamaskinen). Hvordan beskrive frekvensresponsfunksjonen når det gjelder et system med sinusformet inngang og utgang. Hvordan bruke geosa8.m til å interagere designe en gaussisk, binomial eller Hamming-Window Lowpass-filter for en tidsserie Pearson-produkt-korrelasjonskoeffisienten er trolig den mest brukte statistikken for å oppsummere forholdet mellom to variabler. Statistisk betydning og forbehold for tolkning av korrelasjonskoeffisienten som brukt på tidsserier, er emner i denne leksjonen. Under visse antagelser avhenger den statistiske signifikansen av en korrelasjonskoeffisient bare av prøvestørrelsen, definert som antall uavhengige observasjoner. Hvis tidsseriene er autokorrelert, bør en effektiv prøvestørrelse, lavere enn den faktiske prøvestørrelsen, brukes når man vurderer betydningen. Forløpende eller falske forhold kan gi betydelig korrelasjon i noen perioder og ikke for andre. Tidsvariasjonen av styrken av lineær korrelasjon kan undersøkes med plott av korrelasjon beregnet for et skyvevindu. Men hvis mange korrelasjonskoeffisienter evalueres samtidig, bør konfidensintervallene justeres (Bonferroni-justering) for å kompensere for den økte sannsynligheten for å observere noen høye korrelasjoner der det ikke eksisterer forhold. Tolkning av glidende korrelasjoner kan også bli komplisert ved tidsvariasjoner av middel og varians av serien, idet glidende korrelasjon reflekterer kovariasjon i form av standardiserte avvik fra midler i tidsvinduet av interesse, som kan avvike fra langsiktige midler. Endelig bør det understrekes at Pearson korrelasjonskoeffisienten måler styrken av lineært forhold. Scatterplots er nyttige for å sjekke om forholdet er lineært. Svar: Kjør script geosa9.m ​​og svar på spørsmål som er oppført i filen i a9.pdf Matematisk definisjon av korrelasjonskoeffisienten Forutsetninger og hypoteser for signifikanstesting av korrelasjonskoeffisient Hvordan beregne signifikansnivået for korrelasjonskoeffisient og å justere signifikansnivået for autokorrelasjon i the individual time series Caveats to interpretation of correlation coefficient Bonferroni adjustment to signficance level of correlation under multiple comparisons Inflation of variance of estimated correlation coefficient when time series autocorrelated Possible effects of data transformation on correlation How to interpret plots of sliding correlations How to apply geosa9. m to analyze correlations and sliding correlations between pairs of time series Lagged relationships are characteristic of many natural physical systems. Lagged correlation refers to the correlation between two time series shifted in time relative to one another. Lagged correlation is important in studying the relationship between time series for two reasons. First, one series may have a delayed response to the other series, or perhaps a delayed response to a common stimulus that affects both series. Second, the response of one series to the other series or an outside stimulus may be smeared in time, such that a stimulus restricted to one observation elicits a response at multiple observations. For example, because of storage in reservoirs, glaciers, etc. the volume discharge of a river in one year may depend on precipitation in the several preceding years. Or because of changes in crown density and photosynthate storage, the width of a tree-ring in one year may depend on climate of several preceding years. The simple correlation coefficient between the two series properly aligned in time is inadequate to characterize the relationship in such situations. Useful functions we will examine as alternative to the simple correlation coefficient are the cross-correlation function and the impulse response function. The cross-correlation function is the correlation between the series shifted against one another as a function of number of observations of the offset. If the individual series are autocorrelated, the estimated cross-correlation function may be distorted and misleading as a measure of the lagged relationship. We will look at two approaches to clarifying the pattern of cross-correlations. One is to individually remove the persistence from, or prewhiten, the series before cross-correlation estimation. In this approach, the two series are essentially regarded on equal footing . An alternative is the systems approach: view the series as a dynamic linear system -- one series the input and the other the output -- and estimate the impulse response function. The impulse response function is the response of the output at current and future times to a hypothetical pulse of input restricted to the current time. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script. Autocorrelation Function Note that 0 is the variance of the stochastic process. The autocovariance function at lag k . for k 0, of the time series is defined by The autocorrelation function ( ACF ) at lag k . for k 0, of the time series is defined by The variance of the time series is r 0 . A plot of r k against k is known as a correlogram . Observation . The definition of autocovariance given above is a little different from the usual definition of covariance between 1 . , y n-k and k 1 . , y n in two respects: (1) we divide by n instead of nk and we subtract the overall mean instead of the means of 1 . , y n-k and k 1 . , y n respectively. For values of n which are large with respect to k . the difference will be small. Example 1 . Calculate s 2 and r 2 for the data in range B4:B19 of Figure 1. Figure 1 ACF at lag 2 The formulas for calculating s 2 and r 2 using the usual COVARIANCE. S and CORREL functions are shown in cells G4 and G5. The formulas for s 0 . s 2 and r 2 from Definition 2 are shown in cells G8, G11 and G12 (along with an alternative formula in G13). Note that the values for s 2 in cells E4 and E11 are not too different, as are the values for r 2 shown in cells E5 and E12 the larger the sample the more likely these values will be similar Real Statistics Function . The Real Statistics Resource Pack supplies the following functions: ACF (R1, k ) the ACF value at lag k for the time series in range R1 ACVF (R1, k ) the autcovariance at lag k for the time series in range R1 Note that ACF(R1, k ) is equivalent to SUMPRODUCT(OFFSET(R1,0,0,COUNT(R1)- k )-AVERAGE(R1),OFFSET(R1, k ,0,COUNT(R1)- k )-AVERAGE(R1))DEVSQ(R1) Observation . There are theoretical advantages for using division by n instead of nk in the definition of s k . namely that the covariance and correlation matrices will always be definite non-negative (see Positive Definite Matrices ). Observation . Even though the definition of autocorrelation is slightly different from that of correlation, k (or r k ) still takes a value between -1 and 1, as we see in Property 2. Example 2 . Determine the ACF for lag 1 to 10 for the Dow Jones closing averages for the month of October 2015, as shown in columns A and B of Figure 2 and construct the corresponding correlogram. The results are shown in Figure 2. The values in column E are computed by placing the formula ACF(B4:B25, D5) in cell E5, highlighting range E5:E14 and pressing Ctrl-D . Figure 2 ACF and Correlogram As can be seen from the values in column E or the chart, the ACF values descend slowly towards zero. This is typical of an autoregressive process. Observation . A rule of thumb is to carry out the above process for lag 1 to n 3 or n 4, which for the above data is 224 6 or 223 7. Our goal is to see whether by this time the ACF is significant (i. e. statistically different from zero). We can do this by using the following property. Property 3 ( Bartlett ): In large samples, if a time series of size n is purely random then for all k Example 3 . Determine whether the ACF at lag 7 is significant for the data from Example 2. As we can see from Figure 3, the critical value for the test in Property 3 is .417866. Since r 7 .303809 lt .417866, we conclude that is not significantly different from zero. Figure 3 Bartletts Test Note that values of k up to 5 are significant and those higher than 5 are not significant. A more statistically powerful version of Property 4, especially for smaller samples, is given by the next property. Example 4 . Use the Box-Pierce and Ljung-Box statistics to determine whether the ACF values in Example 2 are statistically equal to zero for all lags less than or equal to 5 (the null hypothesis). The results are shown in Figure 4. Figure 4 Box-Pierce and Ljung-Box Tests We see from these tests that ACF( k ) is significantly different from zero for at least one k 5, which is consistent with the correlogram in Figure 2. Real Statistics Functions . The Real Statistics Resource Pack provides the following functions to perform the tests described by the above properties. BARTEST ( r, n, lag ) p-value of Bartletts test for correlation coefficient r based on a time series of size n for the specified lag . BARTEST (R1. lag ) BARTEST( r, n, lag ) where n the number of elements in range R1 and r ACF(R1, lag ) PIERCE (R1,, lag ) Box-Pierce statistic Q for range R1 and the specified lag BPTEST (R1,, lag ) p-value for the Box-Pierce test for range R1 and the specified lag LJUNG (R1,, lag ) Ljung-Box statistic Q for range R1 and the specified lag LBTEST (R1,, lag ) p-value for the Ljung-Box test for range R1 and the specified lag In the above functions where the second argument is missing, the test is performed using the autocorrelation coefficient (ACF). If the value assigned instead is 1 or pacf then the test is performed using the partial autocorrelation coefficient (PACF) as described in the next section. Actually if the second argument takes any value except 1 or pacf, then the ACF value is used. F. eks BARTEST(.303809,22,7) .07708 for Example 3 and LBTEST(B4:B25,acf,5) 1.81E-06 for Example 4.

No comments:

Post a Comment