深度求索DeepSeek-V3大語言模型算法2024年12月26日正式發(fā)布
DeepSeek大語言模型算法是北京深度求索人工智能基礎(chǔ)技術(shù)研究有限公司推出的深度合成服務(wù)算法。DeepSeek大語言模型算法于2024年4月上線。
DeepSeek大語言模型系以Transformer架構(gòu)為基礎(chǔ),自主研發(fā)的深度神經(jīng)網(wǎng)絡(luò)模型。模型基于注意力機制,通過海量語料數(shù)據(jù)進行預(yù)訓(xùn)練,并經(jīng)過監(jiān)督微調(diào)、人類反饋的強化學(xué)習等進行對齊,構(gòu)建形成深度神經(jīng)網(wǎng)絡(luò),并增加審核、過濾等安全機制,使算法模型部署后能夠根據(jù)人類的指令或者提示,實現(xiàn)語義分析、計算推理、問答對話、篇章生成、代碼編寫等任務(wù)。應(yīng)用于智能對話場景,服務(wù)于企業(yè)端客戶,根據(jù)用戶輸入的文本數(shù)據(jù),通過大語言模型生成符合用戶需求的文本、代碼等內(nèi)容。
2024年4月,DeepSeek大語言模型算法備案通過。
2024年5月7日,發(fā)布第二代開源Mixture-of-Experts(MoE)模型——DeepSeek-V2。
2024年6月17日,發(fā)布DeepSeek-Coder-V2。
2024年12月13日,發(fā)布用于高級多模態(tài)理解的專家混合視覺語言模型——DeepSeek-VL2。
2024年12月26日晚,AI公司深度求索(DeepSeek)正式上線全新系列模型DeepSeek-V3首個版本并同步開源。