3253 サイトリライアビリティエンジニア(SRE)(機械学習プラットフォーム)_GI
- 求人番号
- NJB2353891
- 採用企業名
- 最大手日系メーカー系SIer
- 職種
-
IT(PM・SE) - AI・MLエンジニア
- 雇用形態
- 無期雇用
- 勤務地
-
神奈川県
- 仕事内容
-
【事業・組織構成の概要】
私たちは、国内企業で最大規模となるAIスパコンの開発・運用を行っている、世界でも有数のプラットフォームエンジニアリングを行っているグループです。世界で最高のモノづくりにこだわり、先進AIで社会にイノベーションを起こしたい方を募集しています。
当社では、世界でも有数の数百名のAI研究者がAIスパコンを行い、当社独自の生成AI等の大規模なAIモデルの開発を行っています。また、生成AI以外にも世界トップレベルの生体認証技術を始めとして、画像認識・データ分析・言語モデル(LLM)・ロボット制御等、多種多様な分野でAIの研究開発を行っており、事業の応用分野も多岐に及んでいます。
AIスパコンは、AIの研究開発を支えるキーコンポーネントであり、当社のAIの研究開発全体を強化するべくAIスパコンの開発・運用を共に行って頂ける方を求めています。
【職務内容】
最新のハイエンドGPU928基を備える国内企業で最大規模のAIスーパーコンピューターを開発・運用を共に行って頂くSite Reliability Engineer (Machine Learning Plaftorm) を数名募集します。スケーラブルかつ洗練されたGPUサーバーを用いた世界有数のAIスパコンを開発・運用し、AIの技術開発に革新をおこしたい方を募集しています。コンピューターアーキテクチャ・ソフトウェアアーキテクチャに精通し、世界に誇れるAIスパコンを共に開発・運用して頂ける方を求めています。
AIスパコンの安定運用を行いながらもAIの進化に合わせ基盤強化を行うには、ソフトウェアの高い開発能力が必要であり、ソフトウェア開発へのこだわりのある方を募集します。
【ポジションのアピールポイント・想定キャリアパス等】
・世界の先端のAIスーパーコンピュータの開発に携わることができ、AIが紡ぎだす未来を自らの手で作れます
・現代のAIの技術開発には高度な分散システムが必要であり、先端のSW/HWに精通できます
・AI/HPC/分散システムのスペシャリストとしてのキャリアパスを想定しています。
■休日:完全週休二日制, 土, 日, 祝日, 夏季休暇
- 求める経験
年齢制限の理由 -
【MUST】
下記を全て満たすこと
・ 5年以上のソフトウェア開発・運用の実務経験
・ コンピュータサイエンス/機械学習の修士号、または博士号、または同等の実務経験がある方
・ Kubernetesの利用経験
・ 分散システムの設計・開発経験
・ システムの運用設計・監視の経験
【WANT】
・ 大規模サイトなどでのSREとしての経験(ベアメタルサーバーでの開発経験があれば尚良いです)
・ Kubernetesのクラスタの運用経験
・ 数PB規模の分散ファイルシステムを用いたストレージの開発・運用の実績。
・ GPU関連処理技術への理解(CUDA、NCCL、MPI等)
・ Go言語での開発経験
・ オープンソースプロジェクトへの貢献(GithubのURLがあればプラス)
・ 各種の学習フレームワークへの理解(PyTorch、TensorFlow等)
■職種未経験者:不可
- 想定年収
- 930万円 - 1100万円
- 語学力
-
英語力:不問
- 受動喫煙対策
- 就業場所 全面禁煙
- 受動喫煙対策詳細
