Alonso et al. 2013. Predicción de clusters de series temporales demográficas. MedULA. 22: 25-28. PREDICCIÓN DE CLÚSTERS DE SERIES TEMPORALES DEMOGRÁFICAS. Andrés M. Alonso1, Daniel Peña2, Julio Rodríguez3. 1Instituto de Investigación Avanzada sobre Evaluación de la Ciencia y la Universidad y Departamento de Estadística. Universidad Carlos III de Madrid. 28903 Getafe (Madrid). 2Departamento de Estadística. Universidad Carlos III de Madrid. 28903 Getafe (Madrid). 3Dpto. Análisis Económico Economía Cuantitativa. Universidad Autónoma de Madrid. 28049 Madrid. andres.alonso@uc3m.es, daniel.pena@uc3m.es, jr.puerta@uam.es Resumen En el presente trabajo se propone la aplicación de técnicas clúster al modelado de las series temporales demográficas por edades. El objetivo es localizar la existencia de grupos de edades con una dinámica temporal similar, para posteriormente realizar una estimación conjunta del modelo que describa mejor las características comunes de los grupos de series. El método clúster utilizado permite la comparación de sus modelos generadores sin imponer la independencia de las series. Obtenidos los grupos de series con modelos generadores equivalentes y estimado el modelo generador común se realiza las predicciones a diferentes horizontes. Presentamos los resultados para las series de tasas brutas de mortalidad por grupos de edades simples de ambos sexos. Los predicciones obtenidas a partir de los clúster de series presentan un error cuadrático medio menor que las predicciones mediante modelos univariantes para cada una de las series. La principal ventaja de este método es que permite estimar los parámetros con mayor precisión y esto implica una reducción de la incertidumbre en los pronósticos. Palabras clave: Clúster de series, series temporales, demografía, tasas brutas de mortalidad. Abstract Clusters prediction of demographic time series. This paper proposes the application of cluster technique to the modeling of demographical by age time series. The objective is to find the existence of age groups with a similar time dynamic, to posteriorly have a full estimation of the model that describes better the common characteristics of the group series. After the groups series with equivalent models generators and estimated the common generator model, the predictions are made at different horizons. We present the results for the gross mortality rates by simple age groups in both sexes. The predicitions obtained from the clusters of sseries present a quadratic mean error lower than the predictions by univariant models for each series. The main advantage of this method is that it lets estimate the parameters with higher precision and this means a reduction of the incertainty in the pronostics. Keywords: Clusters of time series, demografía, gross mortality rates. • Longitud reducida de las series, debido a que el INTRODUCCIÓN. cambio se observa en los últimos 25 años. El cambio demográfico que se ha observado en el • Estructura de dependencia entre las series último cuarto del siglo pasado se prevé que tenga contiguas en edades, lo que implica que en el numerosas consecuencias socioeconómicas. En este análisis de las sexxistence eries marginalizadas periodo España ha experimentado importantes existiría una gran pérdida de información. modificaciones en la dinámica de los componentes demográficos básicos: fecundidad, mortalidad e La figura 1 muestra los logaritmos de las tasas brutas inmigración. de mortalidad entre 1970 y 2001 en ambos sexos para Este trabajo es parte de un proyecto que evalúa los edades seleccionadas. En ellos se aprecia la existencia cambios en las series demográficas y sus de posibles componentes comunes tanto en la consecuencias en la predicción de la demanda de tendencia como en la estructura de dependencia educación en España y Europa que está financiado por dinámica. la Fundación BBVA. Un paso previo a la predicción La búsqueda de estructuras comunes en estas series de esta demanda es el análisis y predicción de las permitirá proponer modelos más parsimoniosos e principales series temporales demográficas que incrementar la precisión de las estimaciones de sus describen tanto la población total como las tasas parámetros. brutas de mortalidad, fecundidad, escolaridad e inmigración. El análisis de las series demográficas se enfrenta a las siguientes condiciones: MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 22. Nº 1. 2013. Mérida. Venezuela. 25 Alonso et al. 2013. Predicción de clusters de series temporales demográficas. MedULA. 22: 25-28. CONTRASTE DE IGUALDAD DE MODELOS Sean {Xt}t∈Z e {Yt}t∈Z dos procesos estacionarios que Para ello, comparamos los modelos generadores (AR siguen los modelos PX y PY , respectivamente. Sean ó ARMA): ′ ′ X = (X1,…,X n ) e Y = (Y1,…,Yn ) vectores de observaciones H0 : φX = (φX ,1,…,φX , p ) = φY = (φY ,1,…,φY , p )  . H : φ = (φ ,…,φ )′ ≠ φ = (φ ,…,φ )′ de los procesos {Xt}t∈Z e {Yt}t∈Z no necesariamente  1 X X ,1 X , p Y Y ,1 Y , p independientes. Estamos interesados en el siguiente contraste:  H0 : PX = PY  .   H1: PX ≠ PY Mujeres Hombres -2 -2 -3 -3 -4 -4 -5 -5 -6 -6 -7 -7 -8 -8 -9 -9 -10 -10 1970 1975 1980 1985 1990 1995 2000 1970 1975 1980 1985 1990 1995 2000 Fig. 1. Tasas de mortalidad por edad y sexo. España 1970 a 2001. Suponemos que {Xt}t∈Z e {Yt}t∈Z admiten una Bajo H0 :π X =πY , el siguiente estadístico se representación ARMA. Sea k = max(k1,k2 ) con k1 y distribuye asintóticamente como una χ 2k (ver, k2 los órdenes de los modelos autorregresivos que Maharaj (2000)): aproximan a {Xt}t∈Z e {Yt}t∈Z seleccionados a partir D = (Rπ )′[R(WVW )−1 R′]−1(Rπ ), de una muestra de tamaño n. Podemos escribir un modelo conjunto para ambas series: donde V es el estimador por mínimos cuadrados de V , π es el estimador por mínimos cuadrados X Z  = =Wπ + ε, generalizados de π y R = [I p −I p ] .   Y  W  X 0  En Alonso y Maharaj (2005) se propone un donde W =   , WX y WY son las matrices  0 W  procedimiento basado en técnicas de computación  Y  T − k × k de observaciones retardadas, π = [π π ]′ y intensiva para un contraste de las estructuras de X Y . Suponemos que autocorrelación que es equivalente al desarrollado ε = [ε′Xε′Y]′ esta sección y que es independiente de modelo.  σ 2 σ  E[ε ] = 0,E[εε′] =V = Σ⊗ In−k ,y Σ =  x xy  σ 2   yx σ y  26 MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 22. Nº 1. 2013. Mérida. Venezuela. Alonso et al. 2013. Predicción de clusters de series temporales demográficas. MedULA. 22: 25-28. 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 Fig. 2. Cluster jerárquico mediante comparación de eje de ordenadas se representa el 1-p-valor del modelos contraste de igualdad de modelos. Estableciendo 0.085 como punto de corte, por 0.0845 ejemplo, el valor 0.084 0.95 obtendríamos en 0.0835 torno a 15 0.083 grupos de series. Al estar basado 0.0825 el dendrograma en el 0.082 encadenamiento 0.0815 del vecino más lejano se 0.081 asegura que 0.0805 todas las comparaciones 0.08 dos a dos, dentro 20 40 60 80 100 120 140 160 Número de modelos un cluster, establecen que Fig. 3. Error absoluto medio de predicción según el el modelo en las series es igual. número de modelos considerado La estructura jerárquica obtenida mediante este procedimiento nos permite definir desde 1 a 172 RESULTADOS DEL PROCEDIMIENTO modelos en las series de tasas. CLUSTER. En cada cluster de series se estima el modelo común Basándose en el anterior contraste de igualdad de mediante mínimos cuadrados generalizados. modelos en series temporales, Maharaj (2000) propone un procedimiento de clusters jerárquicos ANÁLISIS COMPARATIVO DE que permite agrupar las series de forma que cada uno PREDICCIONES de los grupos sea homogéneo respecto al modelo Para analizar la influencia del número de modelos generador. considerados (uno por cluster) en la capacidad En la figura 2 se muestra el resultado de este predictiva global del procedimiento propuesto procedimiento aplicado a la diferencias de las 172 analizamos el error absoluto relativo medio en la series de tasas brutas de mortalidad por edades y predicción de las tasas para el año 2001. sexo (edades simples de 0 años a 84 años y grupo de 85 y más años) para el período 1970 – 2000. En el MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 22. Nº 1. 2013. Mérida. Venezuela. 27 Alonso et al. 2013. Predicción de clusters de series temporales demográficas. MedULA. 22: 25-28. En la figura 3 se observa que los errores de . predicción son muy similares cuando se consideran En la figura 4 presentamos los incrementos más de diez grupos, e incluso para valores menores porcentuales, respecto a los obtenidos con la que 100 grupos son ligeramente inferiores a estimación individual de cada una de las series, en considerar un modelo para cada serie temporal. las longitudes de los intervalos de predicción del Al no existir una pérdida en los errores medios de 95% con horizonte desde 1 a 25 años. Se observa predicción se justifica la selección de un esquema una reducción media de la longitudes en torno al 5% más parsimonioso, en cuanto al número de modelos cuando se opta por un número reducido de modelos. diferentes, para la predicción a corto plazo. La selección de un esquema de modelos más CONCLUSIÓN. parsimonioso se corrobora si se aplican criterios de En este trabajo hemos propuesto un procedimiento información como el AIC o el BIC que tienen en para la modelación y predicción de un alto número cuenta, simultáneamente, tanto el error de predicción de series temporales que se basa en la agrupación como el número de parámetros a estimarse. por igualdad de modelos generadores. Se ha aplicado La estimación conjunta de los parámetros de un el procedimiento a un conjunto de datos reales modelo para un grupo de series conduce a la demográficos y se obtienen resultados satisfactorios reducción de la incertidumbre asociada a la en cuanto al error de predicción y a la incertidumbre estimación siempre que los grupos provengan del asociada a la estimación de los modelos. mismo modelo generador. Esta mejora implicará la obtención de intervalos de Agradecimientos. predicción más precisos que si utilizamos un modelo Este trabajo ha sido financiado por el proyecto distinto para cada serie. #2233 “Previsión del efecto de los cambios de la natalidad en la demanda de educación 1 en España y en la 20 modelos 50 modelos Unión Europea” de la 100 modelos 0 Fundación BBVA. REFERENCIAS. -1 Alonso, A.M. and Maharaj, E.A. (2005) Comparison of time -2 series using subsampling, -3 Computational Statistics and Data Analysis, 50 (10), -4 2589-2599. Maharaj, E.A. (2000) Clusters of time series, -5 Journal of Classification, 17 (2), -6 297-314. 0 5 10 15 20 25 Horizonte de predicción Fig. 4. Reducción de la incertidumbre de predicción según el número de modelos considerado MedULA le invita a publicar en sus páginas, los resultados de sus investigaciones u otra información en ciencias de la salud. MedULA. Apartado 870. Mérida. Venezuela 28 MedULA, Revista de Facultad de Medicina, Universidad de Los Andes. Vol. 22. Nº 1. 2013. Mérida. Venezuela. Porcentaje de reducción