綜合
案例
公司
專題
發(fā)布時(shí)間:2025-10-17 14:17
10-20K
運(yùn)維工程師
深圳市 3-5年 本科
立即投遞
廣告門嚴(yán)禁用人單位做出任何損害求職者合法權(quán)益的違法違規(guī)行為,包括但不限于:扣押求職者證件、收取求職者財(cái)物、向求職者集資、讓求職者入股、誘導(dǎo)求職者異地入職、異地參加培訓(xùn)、違法違規(guī)使用求職者簡(jiǎn)歷等,您一旦發(fā)現(xiàn)此類行為, 請(qǐng)立即舉報(bào)
職位描述
崗位職責(zé):
1. 負(fù)責(zé)公司 AI Agent 產(chǎn)品及配套平臺(tái)系統(tǒng)的部署、發(fā)布與環(huán)境管理,支持模型服務(wù)、高并發(fā)業(yè)務(wù)接口與內(nèi)部平臺(tái)的持續(xù)穩(wěn)定運(yùn)行;
2. 搭建并優(yōu)化 CI/CD 流程,覆蓋開發(fā)、預(yù)發(fā)、生產(chǎn)環(huán)境,支持代碼回滾、模型灰度發(fā)布、快速熱更新;
3. 維護(hù)大語言模型推理服務(wù)運(yùn)行環(huán)境(如 LLM 微調(diào)/推理框架、GPU 服務(wù)容器、顯存調(diào)度等),確保響應(yīng)時(shí)延與高可用;
4. 構(gòu)建完善的監(jiān)控與告警體系(如 Prometheus + Grafana/ELK),覆蓋模型加載失敗、插件鏈路異常、服務(wù)降級(jí)等關(guān)鍵指標(biāo);
5. 與算法工程師協(xié)作,完成模型上線流程自動(dòng)化、推理服務(wù)容器部署、A/B實(shí)驗(yàn)隔離等能力建設(shè);
6. 管理云平臺(tái)與成本預(yù)算,評(píng)估GPU資源利用率、磁盤IO、網(wǎng)絡(luò)性能等系統(tǒng)瓶頸,提升系統(tǒng)穩(wěn)定性與性價(jià)比;
7. 參與服務(wù)SLA定義、穩(wěn)定性目標(biāo)設(shè)定與恢復(fù)策略設(shè)計(jì),推動(dòng)運(yùn)維能力產(chǎn)品化,賦能全棧團(tuán)隊(duì)高效交付。
任職要求:
1. 具備 3 年以上互聯(lián)網(wǎng)平臺(tái)或分布式系統(tǒng)運(yùn)維經(jīng)驗(yàn),熟悉 Linux 操作系統(tǒng)、Shell 編程及基礎(chǔ)網(wǎng)絡(luò);
2. 熟練掌握 Docker / Kubernetes 等容器技術(shù),了解微服務(wù)架構(gòu)下的多模塊部署、資源隔離與服務(wù)發(fā)現(xiàn);
3. 熟悉 GitLab CI、Jenkins 等 CI/CD 工具鏈,具備流水線編排、權(quán)限管理、自動(dòng)化測(cè)試接入等經(jīng)驗(yàn);
4. 熟悉 Prometheus / Grafana / ELK 等監(jiān)控日志工具,具備報(bào)警規(guī)則編寫、SLO/SLA 監(jiān)測(cè)經(jīng)驗(yàn);
5. 有 AI/LLM 模型部署經(jīng)驗(yàn)(如推理框架服務(wù)容器優(yōu)化)者優(yōu)先;
6. 對(duì)智能產(chǎn)品的運(yùn)行機(jī)制具備系統(tǒng)化認(rèn)知,關(guān)注用戶請(qǐng)求鏈路、Agent行為輸出穩(wěn)定性,具備跨后端/算法/產(chǎn)品協(xié)作意識(shí);
7. 具備風(fēng)險(xiǎn)預(yù)判、流程規(guī)范意識(shí),能獨(dú)立處理服務(wù)故障、設(shè)計(jì)應(yīng)急機(jī)制,并能沉淀為團(tuán)隊(duì)規(guī)范或運(yùn)維工具。
公司信息
公司地址
更多職位
測(cè)試工程師
10-15K
算法工程師
30-40K
互聯(lián)網(wǎng)產(chǎn)品渠道運(yùn)營(yíng)/渠道商務(wù)(廣告行業(yè))
10-15K
數(shù)據(jù)工程師 / 數(shù)據(jù)分析工程師
10-15K
意見反饋/舉報(bào)
反饋/舉報(bào)信息:
聯(lián)系方式(選填):