El Sistema de Agua y Saneamiento en el Perú es esencial para el desarrollo de la población rural. Para el año 2030, el gobierno peruano tiene proyectado cubrir al 100% de agua potable y saneamiento al ámbito rural. El Ministerio de Vivienda, Construcción y Saneamiento – MCVS, a través del Programa Nacional de Saneamiento Rural – PNSR, promueve la aplicación de las políticas de agua y saneamiento rural, en coordinación con los Gobiernos Regionales. El proceso de Diagnóstico de Agua y Saneamiento del MVCS, recopila la información de los centros poblados y luego esta información debe ser validada. En la validación de la información, se selecciona a los centros poblados a validar de manera aleatoria, debido a que no pueden identificar realmente a los centros poblados que ingresan información inconsistente. Esto afecta negativamente a la toma de decisiones para la priorización de los proyectos de construcción y mejoramiento de los sistemas de agua y saneamiento. En nuestra investigación, con las técnicas de minería de datos hemos identificado los perfiles de los centros poblados que deben ser considerados para la validación de su información, es decir los centros poblados que cuentan con información inconsistente y por tal razón deben ser validados y subsanados. Para probar lo antes mencionado, hemos considerado los 9,937 centros poblados de la región del Cusco, aplicando la metodología CRISP-DM y los algoritmos naive bayes, vecinos cercanos, árbol de decisión (Clasificación) y simple k-means (Agrupamiento) que nos han permitido obtener los modelos (predictivos y descriptivo) mediante el software WEKA.
The Water and Sanitation System in Peru is essential for the development of the rural population. By 2030, the Peruvian government plans to cover 100% of drinking water and sanitation in the rural area. The Ministry of Housing, Construction and Sanitation – MCVS, through the National Rural Sanitation Program - PNSR promotes the application of rural water and sanitation policies, in coordination with the Regional Governments. The Water and Sanitation Diagnosis process of the MVCS collects the information from the population centers and then this information must be validated. In the validation of the information, the population centers are selected to be validated in a random way, because they can not really identify the population centers that enter inconsistent information. This negatively affects decision-making for the prioritization of construction projects and improvement of water and sanitation systems. In our research, with data mining techniques we have identified the profiles of the population centers that should be considered for the validation of their information, that is, the population centers that have inconsistent information and for that reason should be validated and corrected. To prove the aforementioned, we have considered the 9,937 populated centers of the Cusco region, applying the CRISP-DM methodology and the naive bayes algorithms, close neighbors, decision tree (Classification) and simple k-means (Clustering) that have given us allowed to obtain the models (predictive and descriptive) using the WEKA software.