Un tutorial su come scrivere passo dopo passo le serie temporali Versioned in Artesian con l'SDK Matlab.
Artesian ti permette non solo di avere un accesso semplice allo storico dei dati ma anche di poterne scrivere di nuovi al suo interno.
Vediamo passo passo come procedere.
Obiettivo
Scrivere i nostri dati in un Versioned Time Serie Market Data.
I dati e i link di riferimento sono fittizi, creati appositamente per questo case. In Artesian è possibile scrivere qualsiasi dato che sia riconducibile a una Time Serie, quindi è idoneo per salvare i tuoi dati di produzione.
Vediamo passo per passo come procedere.
Importazione e configurazione di Artesian
La prima cosa da fare per poter utilizzare tutte le funzionalità di Artesian è autenticarsi. Per fare ciò dobbiamo installare il toolbox di Artesian che è fondamentale per istanziare l’autenticazione verso il servizio (linea 1 dello script) e successivamente per leggere i dati.
Una volta installato il toolbox, possiamo configurare Artesian, inserendo il link necessario e l’api-key.
Per poter ottenere questi due dati importanti, si può far riferimento al tutorial “Come Configurare Artesian Matlab SDK“.
Terminata la configurazione di Artesian, possiamo configurare il Query Service (linea 3)
cfg = ArtesianServiceConfig("https://arkive.artesian.cloud/{tenantName}/", "{api-key}");
mds = MarketDataService(cfg);
Il MarketData Identifier e i dati necessari per la scrittura delle Versioned TimeSeries
Una volta configurato Artesian e il MarketData Service, possiamo definire il MarketData Identifier, ovvero possiamo dare un nome al nostro MarketData.
Il nome del Provider, in questo caso sarà “MatlabSDK”, mentre il nome del Market Data sarà “VersionedWrite”. La definizione di questi due campi è necessaria per due motivi:
- Il nome del Provider e il nome del Market Data rappresentano l’identificatore univoco della nostra curva su Artesian. Questa combo di valori viene poi tradotta nel MarketDataID.
- Il nome del Provider e il nome del Market Data sono necessari per ritrovare i dati all’interno del portale, tramite l’uso del filtro testuale libero o del filtro per categorie.
Definiti i nomi del market data e del provider, possiamo passare al decidere le caratteristiche di base della nostra Time Serie, come il tipo di Granularità, il tipo della Time Serie, la TimeZone, l’eventuale Aggregation Rule e le Tags.
Artesian può supportare diverse granularità come: 10min, 15min, 30min, Hour, Day, Week, Month, Quarter, Season e Year.
Nel momento in cui decidiamo il tipo di granularità del nostro market data, lo dobbiamo scrivere di conseguenza, indicandone i valori. Nel caso di Granularity.Day, i dati corrisponderanno a un determinato giorno, di un determinato mese, di un determinato anno. Nel caso di Granularity.Hour, i dati corrisponderanno a una determinata ora (minuto e secondo) di un determinato giorno in un determinato mese e anno.
Le TimeZone va valorizzata con quella corrispondente al dato che stiamo salvando, questo aiuterà il sistema ad applicare le conversioni necessarie ai dati nel caso di estrazioni in una TimeZone differente dall’originale
Il Tipo della Time Serie, in questo caso è Versioned, ma potrebbe essere anche Actual, MarketAssessment, BidAsk oppure Auction. Vedi gli altri tutorial.
In Artesian, l’Aggregation Rule è un’operazione che va fatta quando si estrae il dato in una granularità diversa da quella originale. Si può scegliere se settarla “Undefined”, “SumAndDivide” oppure “AverageAndReplicate”. Nel codice di esempio riportiamo l’Aggregation Rule “AverageAndReplicate”.
data = MarketDataEntityInput("MatlabSDK", ...
"VersionedWrite", ...
"Day", ...
"CET", ...
AggregationRuleEnum.AverageAndReplicate, ...
MarketDataTypeEnum.VersionedTimeSerie ...
);
mds.MarketData.Create(data);
Scrittura dei valori del MarketData
L’ultima parte del nostro codice consiste nell’andare a configurare la scrittura verso Artesian.
I parametri necessari per farlo sono:
Il Marketdata identifier che abbiamo definito all’inizio del nostro codice
La TimeZone di riferimento del dato che stiamo scrivendo, questa deve essere “UTC” nel caso di dati a granularità oraria o inferiore (ovviamente con l’adeguata conversione dei dati se necessario), deve invece corrispondere all’OriginalTimezone nel caso di dati a granularità giornaliera o superiore. Questa conversione dei dati nel caso di granularità oraria o inferiore è necessaria ad Artesian per gestire correttamente i dati inviati ( es: cambio di ora solare/legale )
Le Versioned rows sono un array di dictionary di dati in cui la copia “chiave” “valore” è articolata come segue:
- “chiave” che corrisponde al datetime di riferimento del dato
- “valore” che corrisponde al numero che vogliamo inserire per quell’istante di tempo
Sotto riportiamo un esempio di codice per la scrittura di dati giornalieri e orari:
- I dati giornalieri hanno valori per il 28 e 29 Giugno
- I dati orari hanno valori per il 29 Giugno, alle ore 9AM e 10AM
Scrivere valori a due differenti granularità non è supportato da Artesian, è stato fatto solamente a titolo di esempio.
Un altro campo obbligatorio da scrivere è il “downloadedAt“, un’informazione di tipo metadata che rappresenta quando il dato è stato generato.
Una volta inseriti i valori e definito il momento di generazione dei dati, possiamo caricare la Versioned Time Serie nel sistema, attraverso il comando “UpsertCurve.Upsert()“.
rows = [];
#Granularity.Day
rows = [rows {{"2022-06-28T00:00:00", 42}}];
rows = [rows {{"2022-06-29T00:00:00", 44}}];
...
#Granularity.Hour
rows = [rows {{"2022-06-29T09:00:00", 44}}];
rows = [rows {{"2022-06-29T10:00:00", 45}}];
...
id = MarketDataIdentifier("MatlabSDK","VersionedWrite");
value = UpsertCurveDataVersioned(id,"2022-06-30T00:00:00", "CET", "2022-06-30T12:00:00Z", rows);
mds.UpsertCurve.Upsert(value);
Visualizzazione del nuovo MarketData nel portale Artesian
A meno che non ci siano errori da segnalare, nel terminal non apparirà nulla. Possiamo però, tornando sul portale di Artesian, verificare che la nostra TimeSerie appaia sotto la categoria ProviderName con il nome, datole precedentemente, di “Matlab SDK”.
Basta eseguire l’operazione una sola volta per poi averla completamente riproducibile e automatizzata nel nostro workflow.
Questo non solo permette di risparmiare tempo, ma permette anche di ridurre al minimo gli errori umani dati dall’eseguire operazioni ripetute su grandi moli di dati o su diversi file Excel.
Un vantaggio innegabile che ci consente di focalizzarci sull’analisi del dato invece che sulla sua gestione e ottimizzazione.