第470章綠男集中地

 

既然“模型崩潰”的問題癥結已經找到。

下一步的工作就要開始。

“我們可以先啟動備份語言模型，採用新的思路來培育語言模型。”蘇茨克維說：

“這一次，我們必須要用人類創造的真實數據來餵養模型。”

“對數據質量進行檢測、過濾，去除重複、錯誤、偏見的內容。”

“並注意增強數據的多樣性，提高和豐富生成數據的內容。”

“此外，還需要增強魯棒性技術，提高語言模型抗干擾能力，自動識別生成數據。”

“我認為，未來幾年隨著人工智能不斷發展，尋找真實數據將是語言模型面臨的主要挑戰之一。”

“魯棒性”,是指控制系統在一定參數攝動下,維持某些性能的特性。

比如：計算機軟件在輸入錯誤、磁盤故障、網絡過載或者有意攻擊情況下,不死機、不崩潰,就是該軟件的魯棒性。

“在這方面我們有優勢，我們的合作伙伴鵝廠，其App本身就是一個規模龐大的人類自然語言數據庫。”李飛說。

“但是，這還不夠，我們還需要更多的人類經典書籍、圖像數據和新聞數據等。”辛頓說：

“這些才是人類自然語言的精華。”

“另外，我們建議鵝廠適度限制各種應用程序接口扒數據的權限……”克里切夫斯基說：

“他們不僅下載數據，還會產生大量生成式數據，影響到我們的語言模型。”

“這些，我都會和鵝廠對接好，辛苦幾位抓緊訓練，把這段時間損失的進度補上來。”常樂說。

…………

當天晚上，常樂將“模型崩潰”的情況通報給了小馬哥、任總等。

他們都很驚訝。

驚訝的是，模型即便產生問題，也與人類如此相似。

第二天上午。

小馬哥就出現在半山別墅。

“我可不可以這樣理解，隨著語言模型的發展和大面積推廣，今後人類創造生成的數據，會更加稀缺。”小馬哥問。

“可以這樣理解，人類天然的惰性，會助推語言模型生成數據的泛濫。”常樂點頭：

“至少在目前這個階段，模型生成的數據還是與人類數據有差距。”

“缺乏真實性和特徵的多樣性，存在重複、偏見、謬誤等。”

常樂倒了一杯茶給小馬哥：

“當這些數據用於語言模型訓練，就會使模型忽略、遺忘原始數據的特徵和信息，這就是模型崩潰的本質。”

第470章 綠男集中地