大模型平台架构师
岗位职责
1、负责大模型训练与推理平台的整体规划、架构设计与技术演进;
2、主导大模型平台核心模块开发,包括大模型分布式训练框架(如DeepSpeed/Megatron)、高性能推理引擎(vLLM/TensorRT-LLM)、模型微调框架(LoRA/QLoRA)、Prompt工程管理、大模型服务管理等;
3、构建大模型全链路能力:涵盖数据治理→预训练→SFT→RLHF→模型压缩→服务部署→监控运维;
4、跟踪LangChain、RAG、Agent等大模型应用技术,推动平台能力与行业场景融合。
岗位要求 1、硕士及以上学历,计算机相关专业,8年以上云原生/AI平台架构经验;
2、精通大模型技术栈:熟悉Transformer/BERT/GPT等模型架构,掌握分布式训练技术(数据/模型/流水线并行);
3、精通PyTorch生态,具备CUDA算子优化、显存管理(ZeRO/Offload)等调优经验;
4、熟悉推理加速技术(量化/蒸馏/动态批处理);
5、云原生能力:深入掌握K8s、Docker及CNCF生态,具备万卡级GPU集群管理经验(如KubeFlow/Volcano);
6、工程能力:主导过大模型训练/推理平台架构设计,熟悉LLMOps全流程;
7、精通Python,熟悉C++/Go,具备高并发、低延迟系统开发经验。
2、主导大模型平台核心模块开发,包括大模型分布式训练框架(如DeepSpeed/Megatron)、高性能推理引擎(vLLM/TensorRT-LLM)、模型微调框架(LoRA/QLoRA)、Prompt工程管理、大模型服务管理等;
3、构建大模型全链路能力:涵盖数据治理→预训练→SFT→RLHF→模型压缩→服务部署→监控运维;
4、跟踪LangChain、RAG、Agent等大模型应用技术,推动平台能力与行业场景融合。
岗位要求 1、硕士及以上学历,计算机相关专业,8年以上云原生/AI平台架构经验;
2、精通大模型技术栈:熟悉Transformer/BERT/GPT等模型架构,掌握分布式训练技术(数据/模型/流水线并行);
3、精通PyTorch生态,具备CUDA算子优化、显存管理(ZeRO/Offload)等调优经验;
4、熟悉推理加速技术(量化/蒸馏/动态批处理);
5、云原生能力:深入掌握K8s、Docker及CNCF生态,具备万卡级GPU集群管理经验(如KubeFlow/Volcano);
6、工程能力:主导过大模型训练/推理平台架构设计,熟悉LLMOps全流程;
7、精通Python,熟悉C++/Go,具备高并发、低延迟系统开发经验。



