Categoría: Middleware
CODEC-OSE (RTI2018-096006-B-I00)
( 01/01/2019 - 31/12/2021 )
En la era de la exaescala, se espera que trabajos paralelos muy grandes se ejecuten en un número asombroso de procesadores, por lo que el tiempo medio entre fallos será de unos 30 minutos o incluso menos debido a errores silenciosos. Este hecho se ha convertido en una piedra angular en el camino hacia la próxima generación de supercomputadores. Por lo tanto, se necesitan nuevas funciones de manejo de errores, detección de errores e implementaciones de software a nivel de sistema y/o aplicación para proporcionar tolerancia a fallos contra errores silenciosos.
Este proyecto pretende así garantizar que las futuras aplicaciones de exascala se ejecuten satisfactoriamente y generen resultados correctos mientras corren en sistemas inestables, tratando de evitar la inacción y los bloqueos y pérdidas de rendimiento.
El principal objetivo de este proyecto es sobreponerse a errores silenciosos con una aproximación multidisciplinar, abordando la física de neutrones que originan muchos de estos errores y proponiendo nuevos diseños y desarrollos matemáticos y computacionales para superarlos proveyendo así un entorno tolerante a fallos.
Esta actividad se enmarca dentro de una más ambiciosa de e-Ciencia llevada a cabo junto a otras Unidades del CIEMAT y el PIC: la federación de distintas arquitecturas heterogéneas de datos y cálculo de manera transparente al usuario, así como en la eficiencia computacional y energética de los recursos.