职位描述
该职位已进行加V认证,请放心投递
职位描述
负责阿里云ai服务器软硬件平台的规划、定义和技术架构设计。ai服务器软硬件平台,包括服务器硬件和软硬件结合软件,服务于ai训练和ai推理业务场景。
具体职责包括:业务需求分析、行业竞品分析、技术可行性分析、关键技术原型验证、可靠性/稳定性设计、性能优化、技术方案设计、软硬件平台交付等,为ai服务器的核心竞争力负责。
职位要求
1、硕士以上学历,计算机/电子/通信/电气等相关专业,10年以上工作经验;
2、熟悉gpgpu芯片架构及服务器架构,熟悉gpu软硬件设计,gpu虚拟化,gpu性能分析和优化,有gpu driver/opencl开发/cuda编程/gpu编译器/gpu服务器性能优化/gpu性能调优工作经验者优先;
3、熟悉多gpu分布式并行计算、熟悉nccl通信机制,熟悉分布式机器学习,熟悉热门llm框架者优先,包括但不限于:megatron、deepspeed、pytorch、ft、trt-llm、vllm等;
4、熟悉k8s,有gpu资源管控或作业调度工作经验者优先;
5、有良好的团队合作精神和积极主动的学习和沟通能力,对新技术保持热情;
工作地点
地址:北京北京文一西路969号
求职提示:用人单位发布虚假招聘信息,或以任何名义向求职者收取财物(如体检费、置装费、押金、服装费、培训费、身份证、毕业证等),均涉嫌违法,请求职者务必提高警惕。