Orientamento e Tutorato in Itinere | Seminari e Convegni

Simona Andreano - Università Mercatorum, Roma

Distance correlation index on time series histogram

M.S. Andreano, R. Benedetti, F. Piersimoni

Abstract

Recentemente Székely et al. (2007) hanno introdotto l’indice “Distance correlation” come misura di indipendenza tra due vettori di variabili casuali. Tale indice, sviluppato anche in forma di un test per la verifica dell’indipendenza, ha trovato ampi sviluppi metodologici e applicativi. Da quando è stato introdotto da Székely et al. (2007), molti lavori hanno esteso questo concetto in vari campi scientifici, come i dati funzionali multivariati (Gorecki et al. 2016), l’analisi bayesiana (Bhattacharjee 2014), le dimensioni elevate (Martinez-Gomez et al. 2014, Székely e Rizzo 2013) e le serie storiche (Zhou 2012 e Edelmann et al.2018). Tutte queste analisi partono a versioni modificate delle statistiche di Székely et al. (2007), adattate convenientemente al contesto specifico. Nelle serie temporali, ad esempio, la “distance correlation” è applicata sostituendo i vettori X e Y con Xt e Xt-j ed è vista come una misura della dipendenza non lineare. Andreano et al. (2019) hanno esteso il test nel dominio spaziale. La particolarietà dell’approccio di Andreano et al. (2019) è quella di considerare come vettore X le modalità (o classi) di una distribuzione. In questo modo l’indice riesce a cogliere la dipendenza di un’intera distribuzione rispetto allo spazio. Tale approccio può essere opportunamente esteso al caso di serie storiche, facendo pertanto riferimento alle “histogram time series”. In questo modo, attraverso la distance correlation è possibile vedere la dipendenza storica di una intera distribuzione di una variabile X, piuttosto che limitare l’attenzione al suo valor medio (o somma). Esempi applicativi di interesse sono molto ampi. Tuttavia, alcuni aspetti metodologici nell’applicare la distance correlation su histogram time series rimangono ancora aperti e da approfondire.


Recently Székely et al. (2007) introduced the "Distance correlation" index as a measure of independence between two vectors of random variables. This index, developed also in the form of a test for independence, has found extensive methodological and applicative developments. Since distance correlation was introduced by Székely et al. (2007), many works extended this concept in various scientific fields, like multivariate functional data (Gorecki et al. 2016), Bayesian approaches (Bhattacharjee 2014), high dimensions (Martinez-Gomez et al. 2014, Székely and Rizzo 2013) and time series (Zhou 2012 and Edelmann et al. 2018). All these analyses start from modified versions of the statistics of Székely et al. (2007), conveniently adapted on the specific context. In time series, for example, the Auto-Distance Correlation statistic is obtained by replacing the vectors X and Y through Xt and Xt-j and is seen as a measure of nonlinear dependence. Andreano et al. (2019) extended the test in the spatial domain. The particularity of the approach proposed by Andreano et al. (2019) is to apply the index on compositional data, where the observations are the frequencies of a distribution of X. In this way the index captures the dependence of an entire distribution over the space. This approach can be appropriately extended to the case of time series, therefore making reference to histogram time series. In this way, through the distance correlation, it is possible to see the time dependence of an entire distribution of a variable X, rather than limiting the attention to its average value (or sum). Examples of applications of interest are waste. However, some methodological aspects in applying distance correlation on the histogram time series still remain open and need to be explored.