Разработка ETL процессов Sqoop; Разработка потоков обработки данных на PySpark; Создание пайплайнов в планировщике задач Oozie; Разработка систем контроля качества данных на Apache Griffin; Написание Bash скриптов; Обработка структурированных данных (XML/JSON) на Python/PySpark; Исправление багов и проблем функционала; Работа с системами контроля версий GIT/SVN.
Требования
Знание SQL на отличном уровне; Уверенное владение ЯП Python; Опыт работы с ETL инструментами; Опыт работы с СУБД (Oracle, MS SQL, Sybase и др.); Опыт работы с Linux; Опыт работы с Hadoop; Опыт работы с инструментами обработки больших данных (Spark, MapReduce и др.).