職位類別:
崗位職責(zé): 1. 遵循robots 協(xié)議,對互聯(lián)網(wǎng)公開信息進(jìn)行采集; 2. 負(fù)責(zé)網(wǎng)頁信息抽取技術(shù)算法的研究和開發(fā),提升數(shù)據(jù)采集的效率和質(zhì)量; 3. 負(fù)責(zé)設(shè)計(jì)和開發(fā)分布式的網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù),能獨(dú)立解決實(shí)際開發(fā)過程碰到的各類問題(優(yōu)化調(diào)度、并發(fā)、覆蓋率等) ,提升數(shù)據(jù)采集的效果與性能; 4. 負(fù)責(zé)數(shù)據(jù)采集解析入庫、系統(tǒng)異常監(jiān)控與警報(bào)等。 任職要求: 1. 具備扎實(shí)的編程能力、優(yōu)秀的設(shè)計(jì)能力和代碼品味,具有強(qiáng)烈的責(zé)任心 2. 熟練掌握HTML、JavaScript、Python、Scrapy等,能快速完成采集腳本的編寫; 3. 了解主流網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)和框架工具,如Selenium/Puppeteer/PhantomJS/Scrapy等; 4. 了解NLP基本技術(shù),實(shí)際使用過如 Fasttext、N-gram、Bert、GPT 等算法和模型者優(yōu)先; 5. 熟悉常見限制訪問服務(wù)器資源和獲取數(shù)據(jù)技術(shù),具備相關(guān)的實(shí)戰(zhàn)經(jīng)驗(yàn)。
浙江省杭州市拱墅區(qū)浙江省杭州市拱墅區(qū)環(huán)城北路169號匯金國際大廈查看大圖
杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司
行業(yè): 互聯(lián)網(wǎng)/電子商務(wù) 規(guī)模: 100-200 性質(zhì): 私營·民營企業(yè) 當(dāng)前職位: 高級數(shù)據(jù)采集工程師(AGI)
DeepSeek,全稱杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。DeepSeek是一家創(chuàng)新型科技公司,成立于2023年7月17日,使用數(shù)據(jù)蒸餾技術(shù),得到更為精煉、有用的數(shù)據(jù) 。 由知名私募巨頭幻方量化孕育而生,專注于開發(fā)先進(jìn)的大語言模型(LLM)和相關(guān)技術(shù)。經(jīng)營范圍包括技術(shù)服務(wù)、技術(shù)開發(fā)、軟件開發(fā)等。 投遞網(wǎng)站:https://app.mokahr.com/social-recruitment/high-flyer/140576#/