AWS Infrastructure Services owns the design, planning, delivery, and operation of all AWS global infrastructure. In other words, we’re the people who keep the cloud running. We support all AWS data centers and all of the servers, storage, networking, power, and cooling equipment that ensure our customers have continual access to the innovation they rely on. We work on the most challenging problems, with thousands of variables impacting the supply chain — and we’re looking for talented people who want to help.
You’ll join a diverse team of software, hardware, and network engineers, supply chain specialists, security experts, operations managers, and other vital roles. You’ll collaborate with people across AWS to help us deliver the highest standards for safety and security while providing seemingly infinite capacity at the lowest possible cost for our customers. And you’ll experience an inclusive culture that welcomes bold ideas and empowers you to own them to completion.
▶Our organization
The Infrastructure Operations (Data Center) Team is the backbone of AWS, supporting the rapidly growing AWS business and customers 24/7. We are committed to maintain the physical infrastructure of AWS, ensuring the standards for operational performance in the areas of safety, security, availability, productivity, capacity, efficiency, and cost.
As a member of the Infrastructure Operations (Data Center) Team, you will have the chance to work on the most advanced technologies in a DYNAMIC environment with expanding opportunities.
If you enjoy working in a strong and close-knit diverse team, Infrastructure Operations (Data Center) Team is the place to be!
▶Our team
The Amazon Data Center Engineering Operations (DECO) team is seeking a strong subject matter expert (SME) who can deploy, operate, and maintain the facilities (electrical/mechanical systems, control/fire-fighting systems, etc.) of our large-scale, high-density data centers. We support our internal and external customers 24x7 all year, so work is by shift, on-call or a combination of the two.
· There are on-call duties and this role will cover shift in case as needed.
▶Key job responsibilities
MAIN RESPONSIBILITIES
• Own as the site SME and POC, plan, review, evaluate, operate, maintain, improve and manage mission-critical facilities including vendor management, day to day hands-on work and supervision relating to decrease/increase of rack capacity, onsite on-going or future construction works, planned maintenance works and urgent or emergency changes along with the AWS Infrastructure Priorities.
• Participate in and be responsible for future Capacity, Availability and other projects of assigned sites, review, evaluate, and give feedback on designs from Operations viewpoint to mitigate Safety, Security and Availability risks beforehand.
• Prepare and implement countermeasures for natural disasters, emergency response to high priority/critical incidents including creating EOPs, training staff and preparing appropriate tools. Respond to high severity events and large scale events as the owner of the operations. Understand SOO and EOPs, troubleshoot, mitigate, and resolve issues, write and update senior leaders through regular and timely reports, conclude issue with complete root cause analysis.
• Review, evaluate and proactively identify SPOF risks or vulnerability in data center (electrical, mechanical, control) designs, test and commissioning program, construction and operations processes, and consider, plan, coordinate, propose, negotiate, persuade, grant approval from stakeholders for the issue remediation and/or mitigation plan and deliver results
• Build sustainable and scalable mechanisms to collect, review and report regular metrics and KPI of the team, plan, propose, and drive kaizen based on the metrics and KPI results
•Understand and develop team structure, create and document headcount requirements, help drive interview, and hire bar raising candidates, build strong team through delegation, development, training, directing, coaching, empowering, motivating, promoting, and managing 6 to 10 engineers including regular performance review and discussion
•Plan, review, update and manage budget and procurement.
AWSインフラストラクチャサービスは、AWSのグローバルインフラ全体の設計、計画、提供および運用を担当しています。つまり、クラウドを安定稼働させるための業務を担っています。AWSのすべてのデータセンターおよびサーバー、ストレージ、ネットワーク、電源、冷却設備を支え、お客様が常に最新のイノベーションにアクセスできる環境を提供しています。供給網に影響を与える数千の変数を伴う最も困難な課題に取り組んでおり、これに挑戦したい優秀な人材を求めています。
多様なバックグラウンドを持つソフトウェア、ハードウェア、ネットワークエンジニア、サプライチェーンスペシャリスト、セキュリティ専門家、オペレーションマネージャーなどと協働し、安全性とセキュリティの最高基準を維持しつつ、お客様に対して可能な限り低コストで無限に近いキャパシティを提供しています。大胆なアイデアを歓迎し、それを自らの責任で完遂できる包括的なカルチャーも体験できます。
▶組織について
インフラオペレーション(データセンター)チームは、急成長するAWS事業およびお客様を24時間365日支える基盤であり、安全性、セキュリティ、可用性、生産性、キャパシティ、効率、コストの各分野で高い運用基準を維持しています。
▶仕事内容
インフラオペレーション(データセンター)チームの一員として、ダイナミックな環境で最先端技術に携わる機会があります。多様で強固なチームでの協働を楽しめる方に最適な職場です。
Amazonデータセンターエンジニアリングオペレーション(DECO)チームでは、大規模で高密度なデータセンターの施設(電気・機械設備、制御・防災システム等)を展開・運用・保守できる強力な専門家(SME)を募集しています。社内外のお客様を24時間体制で支援しており、シフト勤務やオンコール対応が求められます。
▶主な業務内容
・担当サイトの専門家として、ミッションクリティカルな施設の計画、評価、運用、保守、改善、管理を行う。
ベンダー管理、ラック容量の増減、現場工事、計画的および緊急メンテナンス作業を含む日々のハンズオン業務と監督を担当。
・担当サイトの将来的なキャパシティや可用性向上プロジェクトに参画し、運用観点から設計を評価・レビューし、
安全性、セキュリティ、可用性のリスクを事前に軽減する。
・自然災害や重大インシデントへの対策を策定・実施し(EOP作成、スタッフ訓練、ツール準備等)、重大イベント対応の責任者として活動。
問題のトラブルシュート、緩和、解決を行い、定期的に上層部へ報告、根本原因分析を完了させる。
・データセンター設計や試験、運用プロセスにおける単一障害点(SPOF)リスクを評価・特定し、改善計画を立案・調整・実行。
関係者の承認取得や交渉を行い、問題解決を推進。
・チームの指標やKPIを定期的に収集・報告し、改善活動(カイゼン)を計画・推進。
・チーム構成の把握と開発を行い、採用活動を支援。6~10名のエンジニアを育成・指導・評価し、強力なチームを構築。
・予算管理や調達計画の策定・管理を担当。
■休日:完全週休二日制, 土, 日, 祝日