EMR es uno de los servicios fundamentales que ARKHO utiliza para soluciones de Big Data en la nube, principalmente en el análisis y procesamiento de datos, extracción, transformación, carga, procesos de Machine Learning, entre otros. EMR es un servicio elástico capaz de proveer, aumentar y/o reducir recursos de forma manual o automatizada según las necesidades de demanda de cómputo. A la vez permite aprovisionar clusters de forma rápida, a un bajo costo y permite una integración con catálogos de datos en Amazon Glue y Amazon S3.
Es una plataforma de cluster administrado que simplifica la ejecución de frameworks de bigdata incluyendo Apache Haddop y Apache Spark y puede ser utilizado para transformar y mover grandes conjuntos de datos a través de clusters en Amazon Elastic Compute Cloud (Amazon EC2), donde la forma más común de cargar los datos es mediante Amazon Simple Storage Service (Amazon S3).
ARKHO utiliza EMR principalmente en casos de uso que potencian el uso de Hadoop, Apache Spark, Hive, HBase, Flink, Hudi y Presto, las cuales permiten ejecutar herramientas de deep learning y machine learning como TensorFlow, Apache MXNet y, mediante la configuración de procesos de arranque, se pueden incorporar herramientas y bibliotecas específicas de diferentes casos de uso, por ejemplo puede utilizar Java, Hive o Pig con MapReduce o Spark Streaming, Spark SQL, MLlib y GraphX con Spark.