久久青青草视频,嫩草成人影院,99久久久国产,99久久精品国产一区二区三区,精品国产乱码久久,精品久久99,99久国产

會(huì)員登錄 - 用戶注冊(cè) - 設(shè)為首頁(yè) - 加入收藏 - 網(wǎng)站地圖 商湯科技首席科學(xué)家林達(dá)華發(fā)布深度長(zhǎng)文《邁向多模態(tài)通用智能:商湯的思考》!

商湯科技首席科學(xué)家林達(dá)華發(fā)布深度長(zhǎng)文《邁向多模態(tài)通用智能:商湯的思考》

時(shí)間:2025-10-11 17:44:22 來(lái)源:素昧平生網(wǎng) 作者:焦點(diǎn) 閱讀:173次

  8月12日,商湯首席深度思考商湯科技聯(lián)合創(chuàng)始人、科技科學(xué)執(zhí)行董事、家林首席科學(xué)家林達(dá)華特別撰寫(xiě)的達(dá)華多模萬(wàn)字深度長(zhǎng)文《邁向多模態(tài)通用智能:商湯的思考》正式發(fā)布。文章剖析了商湯科技為何將“多模態(tài)通用智能”視為技術(shù)戰(zhàn)略的發(fā)布核心引擎,并系統(tǒng)闡釋了發(fā)展多模態(tài)智能的長(zhǎng)文底層邏輯、技術(shù)路徑、態(tài)通湯實(shí)踐探索與未來(lái)方向。用智同時(shí)他還分享了在商湯組織及戰(zhàn)略層面的商湯首席深度思考諸多思考。以下為文章全文:

  邁向多模態(tài)通用智能:商湯的科技科學(xué)思考

  作者:林達(dá)華

  AI 是一場(chǎng)長(zhǎng)跑。從大語(yǔ)言模型(LLM)的家林興起到真正意義的通用人工智能(AGI),還有很多開(kāi)放性的達(dá)華多模問(wèn)題有待解決。我們認(rèn)為,發(fā)布多模態(tài)是長(zhǎng)文從 LLM 到 AGI 的必經(jīng)之路。

  圍繞多模態(tài),態(tài)通湯從智能演進(jìn)、學(xué)習(xí)范式、數(shù)據(jù)和模型架構(gòu)都面臨諸多挑戰(zhàn),也有很大的創(chuàng)新空間;在組織和戰(zhàn)略層面也有很多值得思考的問(wèn)題。在本文中,我先整體回顧一下商湯的多模態(tài)之路,然后就其中的關(guān)鍵問(wèn)題談一下我們的思考。

  主要涉及:

  商湯多模態(tài)之路概覽

  為什么多模態(tài)是通向 AGI 的必經(jīng)之路 ?

  商湯沿著什么路徑去構(gòu)建多模態(tài)智能 ?

  為什么選擇做原生多模態(tài) ?

  多模態(tài)推理的挑戰(zhàn)在哪里 ?

  商湯的訓(xùn)練數(shù)據(jù)是如何生產(chǎn)出來(lái)的 ?

  模型設(shè)計(jì)有哪些思考?模型尺寸和架構(gòu)未來(lái)如何演進(jìn)?

  從多模態(tài)到具身智能,會(huì)面臨哪些挑戰(zhàn) ?

  商湯如何建設(shè)一支有高效且富有創(chuàng)新力的研究力量 ?

  商湯如何平衡技術(shù)突破和商業(yè)落地的關(guān)系 ?

  1、商湯多模態(tài)之路概覽

  商湯是從計(jì)算機(jī)視覺(jué)技術(shù)出發(fā),在人工智能變革浪潮中發(fā)展起來(lái)的企業(yè)。在發(fā)展之初,商湯基于深度學(xué)習(xí)在視覺(jué)領(lǐng)域的運(yùn)用,在人臉識(shí)別、畫(huà)質(zhì)處理、智能駕駛等多個(gè)應(yīng)用方向突破了工業(yè)紅線,推動(dòng)了 AI 技術(shù)在行業(yè)的落地應(yīng)用。

  早在 2019 年,商湯就基于自身的技術(shù)判斷,開(kāi)始在視覺(jué)模型上進(jìn)行尺度定律的探索,在業(yè)內(nèi)率先推出百億參數(shù)的視覺(jué)大模型,在視覺(jué)識(shí)別上突破了多項(xiàng)性能紀(jì)錄。這一前瞻性的技術(shù)觀察,也是推動(dòng)商湯較早就進(jìn)行大規(guī)模 AI 算力投入的重要原因。

  2022 年底,OpenAI 推出 ChatGPT,掀起了全球范圍的大模型浪潮,AI 進(jìn)入了 2.0 時(shí)代。對(duì)于商湯來(lái)說(shuō),這是一次重要的機(jī)遇。我們當(dāng)時(shí)開(kāi)始思考,當(dāng)視覺(jué)模型和語(yǔ)言模型在尺度定律上相會(huì),會(huì)給我們帶來(lái)什么?

  在 2023 年 3 月,商湯和上海人工智能實(shí)驗(yàn)室合作研發(fā),推出了我國(guó)首個(gè)多模態(tài)通用大模型“書(shū)生 2.5” 并開(kāi)源。這個(gè) 30 億參數(shù)的大模型刷新了包括 ImageNet 和 COCO 在內(nèi)的多個(gè)視覺(jué)任務(wù)的紀(jì)錄,并且初步展示了通用圖文問(wèn)答能力。在 6 個(gè)月之后,OpenAI 才正式推出了支持圖像輸入的 GPT-4V。

  在此之后,商湯保持著語(yǔ)言模型和圖文模型的雙軌迭代,但是逐漸看到了這種分立模式的局限 —— 語(yǔ)言和視覺(jué)模態(tài)的融合較淺,難以形成高水平的跨模態(tài)理解能力。于是在 2024 年 5 月開(kāi)始,我們投入了幾千 P 的算力,進(jìn)行了大量比較實(shí)驗(yàn),突破了原生融合訓(xùn)練的技術(shù)路徑。在 2024 年底,以單一模型奪得 SuperCLUE 語(yǔ)言綜合評(píng)測(cè)和 OpenCompass 多模態(tài)綜合評(píng)測(cè)的榜首。從 2025 年 4 月發(fā)布的日日新 6.0 開(kāi)始,原來(lái)分立的兩條模型線匯聚到了一個(gè)融合模型系列。

  其后,商湯的大模型技術(shù)沿著多模態(tài)這一主軸走向縱深,推出了日日新 6.5 多模態(tài)模型,在國(guó)內(nèi)率先實(shí)現(xiàn)圖文交錯(cuò)思維,并且在多模態(tài)融合強(qiáng)化學(xué)習(xí)上取得新的進(jìn)展。與此同時(shí),商湯的開(kāi)悟世界模型和悟能具身智能平臺(tái),讓多模態(tài) AI 從數(shù)字空間走入真實(shí)的物理世界。

  在商湯多模態(tài)之路的背后,是商湯研究團(tuán)隊(duì)就很多關(guān)鍵技術(shù)問(wèn)題的思考、判斷和反思。

  2、為什么多模態(tài)是通向 AGI 的必經(jīng)之路?

  主要觀點(diǎn)

  • 智能的核心是與外界進(jìn)行自主交互的能力,多模態(tài)是通向通用人工智能(AGI)的必經(jīng)之路。
  • 語(yǔ)言是描述世界的工具,但不是世界本身。單靠語(yǔ)言模型并不能構(gòu)建真正意義的 AGI。
  • 大模型浪潮源于 LLM,原因在于海量語(yǔ)料的積累,但是這不是通用智能的終局。
  • 在應(yīng)用場(chǎng)景中實(shí)現(xiàn)完整的價(jià)值,離不開(kāi)對(duì)不同模態(tài)信息的有效處理、對(duì)多種模態(tài)信息的融合分析和判斷。

  多模態(tài)是通向通用人工智能(AGI)的必經(jīng)之路。 這是商湯選擇以多模態(tài)為技術(shù)主軸背后的核心技術(shù)判斷。

  為什么多模態(tài)在智能之路上如此重要?要回答這個(gè)問(wèn)題,我們先回到智能的本質(zhì)。

  人工智能的核心目標(biāo)是通過(guò)計(jì)算來(lái)構(gòu)建智能。智能(Intelligence)是一個(gè)復(fù)雜的多維度概念。雖然智能尚沒(méi)有統(tǒng)一的定義,但其核心就是與外界(包括世界或者其他人)進(jìn)行自主交互的能力。這是一種綜合能力,可以被歸納為多種能力維度,包括感知、推理、決策、學(xué)習(xí)等。

  語(yǔ)言(Language)的本質(zhì)是一種符號(hào)化的交流工具 —— 人們通過(guò)語(yǔ)言傳遞信息。從這個(gè)意義上說(shuō),語(yǔ)言只是人類智能演進(jìn)過(guò)程中的一種產(chǎn)物,但不是智能的本源;語(yǔ)言是描述世界的工具,但不是世界本身。單靠語(yǔ)言模型并不能構(gòu)建真正意義的 AGI。

  為什么這一波大模型浪潮首先源自于語(yǔ)言模型的突破?原因在于海量語(yǔ)料的積累。 在人類數(shù)千年的歷史中積累了海量的語(yǔ)料,這些語(yǔ)料在信息時(shí)代被廣泛地?cái)?shù)字化,從而成為最容易規(guī)?;@取的數(shù)據(jù)形態(tài)。通過(guò)巨大算力對(duì)這些語(yǔ)料進(jìn)行壓縮,大語(yǔ)言模型被打造出來(lái)。這是朝著 AGI 邁出的重要一步,但不是終局。隨著現(xiàn)存的文本語(yǔ)料被快速耗盡,人工智能下一階段的突破必然要超越語(yǔ)言,回到智能的本源 —— 和世界的交互。

  世界的信息以多元形態(tài)存在 —— 除了書(shū)中的文本,還有視覺(jué)的影像、聽(tīng)覺(jué)的音頻、電磁波的脈動(dòng)等。人工智能若要具備通用性,必須能像人類通過(guò)感官接收信息那樣,將這些原始模態(tài)轉(zhuǎn)化為可計(jì)算的內(nèi)部表征。這種表征不是孤立的,模態(tài)之間存在深刻的內(nèi)在關(guān)聯(lián),這是理解世界的基礎(chǔ),也是智能體和世界交互的基本出發(fā)點(diǎn)。因此,多模態(tài)信息感知與處理的能力是 AGI 的核心要求,也是從語(yǔ)言模型邁向 AGI 的必由之路。

  從理論走入現(xiàn)實(shí),技術(shù)的價(jià)值在于應(yīng)用。只有當(dāng)技術(shù)深入每一個(gè)應(yīng)用場(chǎng)景,為用戶解決實(shí)際的問(wèn)題、帶來(lái)更好的體驗(yàn),技術(shù)就有了源源不竭的生命力。

  在過(guò)去十年中,商湯服務(wù)了城市治理、工業(yè)制造、手機(jī)、汽車、互聯(lián)網(wǎng)、教育、醫(yī)療、金融、遙感等多個(gè)行業(yè),涵蓋了生活、娛樂(lè)到工作和生產(chǎn)的方方面面。在眾多應(yīng)用場(chǎng)景中,圖像、圖表、視頻等模態(tài)數(shù)據(jù)是記錄和傳遞信息的重要載體和媒介。在閱讀報(bào)告的時(shí)候,需要看懂圖表;在醫(yī)療場(chǎng)景中,診斷往往需要結(jié)合病歷和醫(yī)療影像的信息;在教學(xué)場(chǎng)景中,多媒體的結(jié)合是常見(jiàn)的手段;在城市治理和工業(yè)場(chǎng)景中,視頻更是不可或缺的信息載體。

  在這些場(chǎng)景中,提供完整的價(jià)值離不開(kāi)對(duì)不同模態(tài)信息的有效處理、對(duì)多種模態(tài)信息的融合分析和判斷。只是在過(guò)去的 AI 1.0 時(shí)代和今天,構(gòu)建場(chǎng)景能力的方式發(fā)生了變遷。在過(guò)去,每個(gè) AI 模型智能提供一個(gè)環(huán)節(jié)的能力,最終由一個(gè)復(fù)雜的業(yè)務(wù)系統(tǒng)串聯(lián)起來(lái);在今天,多模態(tài)的智能體可以自主而靈活地運(yùn)用各種能力,提供端到端的整體價(jià)值。因此,從商業(yè)應(yīng)用的角度,多模態(tài)也是我們的必然選擇。

  3、商湯沿著什么路徑去構(gòu)建多模態(tài)智能?

  主要觀點(diǎn)

  • 從根本上說(shuō),人工智能的發(fā)展是數(shù)據(jù)驅(qū)動(dòng)的,其每一次躍遷都源自于數(shù)據(jù)邊界的打破。
  • 智能的演進(jìn)會(huì)經(jīng)歷幾次破壁:Transformer 實(shí)現(xiàn)了長(zhǎng)序列建模;語(yǔ)言和視覺(jué)的會(huì)合實(shí)現(xiàn)了多模態(tài)理解;邏輯思維和形象思維的結(jié)合實(shí)現(xiàn)真正的多模態(tài)推理;最終,智能體將突破數(shù)字空間與物理空間的邊界,實(shí)現(xiàn)和真實(shí)世界的交互。

  智能的演進(jìn)是一個(gè)漸進(jìn)的過(guò)程。它有很多個(gè)階段,在每個(gè)階段都有不同的特點(diǎn)。

  人類智能進(jìn)化到今天的高度,經(jīng)歷了一個(gè)非常漫長(zhǎng)的歷史時(shí)期,在“物競(jìng)天擇”的生存競(jìng)爭(zhēng)中逐漸傳承下來(lái)。人類在最早期就掌握了和大自然交互的能力,學(xué)會(huì)了運(yùn)用火和工具,而語(yǔ)言、文化和科學(xué)是在社會(huì)生活中逐漸發(fā)展出來(lái)的。而人工智能的發(fā)展則經(jīng)歷了一條很不一樣,甚至是反向的路徑。其根本在于人工智能內(nèi)在本質(zhì)的差異:從根本上說(shuō),人工智能的發(fā)展是數(shù)據(jù)驅(qū)動(dòng)的,其能力邊界是被數(shù)據(jù)所定義的。人工智能的每一次躍遷,都源自于數(shù)據(jù)邊界的打破。

  第一次破壁:Transformer 實(shí)現(xiàn)了長(zhǎng)語(yǔ)言序列建模

  語(yǔ)言模型作為一個(gè)學(xué)術(shù)領(lǐng)域已經(jīng)存在多年。早期的語(yǔ)言模型是通過(guò) N-gram 或者循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等方式對(duì)自然語(yǔ)言中的語(yǔ)句進(jìn)行建模。由于這些模型的建模距離很短(從幾個(gè)到十幾個(gè) token 不等),因此它們只能捕捉到語(yǔ)言中的淺層模式(比如語(yǔ)法等),而難以對(duì)更高層次的知識(shí)和邏輯進(jìn)行建模。

  Transformer 為長(zhǎng)達(dá)幾千 tokens 甚至更長(zhǎng)的語(yǔ)言序列建模提供了有力的工具。Transformer 模型所能看到的不再是短語(yǔ)級(jí)別的語(yǔ)言片段,而是長(zhǎng)篇的段落、文章甚至是書(shū)籍。這是數(shù)據(jù)邊界的一次重要的拓展,讓高階的語(yǔ)言建模成為可能,大語(yǔ)言模型由此而誕生。

  第二次破壁:語(yǔ)言和視覺(jué)的會(huì)合,形成多模態(tài)理解能力

  在大模型出來(lái)之前,計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理是兩個(gè)區(qū)別很大,交流很少的學(xué)科領(lǐng)域;它們各自處在較低的建模水平。計(jì)算機(jī)視覺(jué)通過(guò)給圖像或其局部區(qū)域賦予標(biāo)簽,從而形成初級(jí)的語(yǔ)義理解;而自然語(yǔ)言處理則更多關(guān)注于語(yǔ)法和局部語(yǔ)義的解析。在這個(gè)層面上,兩個(gè)領(lǐng)域的關(guān)聯(lián)度是比較弱的。

  大語(yǔ)言模型的出現(xiàn),讓高階語(yǔ)言建模成為現(xiàn)實(shí),同時(shí)也為高階的圖像理解提供了可能。 一幅圖像所能關(guān)聯(lián)的語(yǔ)義不再受限于幾個(gè)類別標(biāo)簽,而是一個(gè)完整的故事。

  多模態(tài)大模型正是在這樣的技術(shù)契機(jī)中發(fā)展起來(lái)的。當(dāng)我們把圖像、視頻等模態(tài)數(shù)據(jù)和更完整的語(yǔ)言描述關(guān)聯(lián)在一起,在訓(xùn)練中以監(jiān)督或者非監(jiān)督的方式讓模型去建模其內(nèi)在聯(lián)系,模型就具備了對(duì)這些模態(tài)數(shù)據(jù)進(jìn)行高階理解的能力。這是構(gòu)建多模態(tài)智能基礎(chǔ)性的一步。

  第三次破壁:突破邏輯思維和形象思維的邊界,實(shí)現(xiàn)多模態(tài)推理

  從 OpenAI o1/o3 到 DeepSeek R1 等的一系列進(jìn)展中,我們看到語(yǔ)言模型通過(guò)思維鏈訓(xùn)練以及在此基礎(chǔ)上的強(qiáng)化學(xué)習(xí),可以在數(shù)學(xué)、編程等領(lǐng)域形成很強(qiáng)的推理能力,甚至可以達(dá)到奧賽金牌的水平。人類語(yǔ)言本身就蘊(yùn)含了很強(qiáng)的邏輯性,所以以語(yǔ)言方式表達(dá)思維過(guò)程(思維鏈)是一種自然且有效的方法。但是,基于語(yǔ)言的邏輯思維并不是完整的思考能力。

  在人類的思考中,形象思維扮演著同樣重要的角色。所謂“一圖勝千言”,當(dāng)我們?nèi)ピO(shè)計(jì)一棟建筑、構(gòu)思一款產(chǎn)品的交互界面、或者嘗試?yán)斫庖粋€(gè)復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)和關(guān)鍵節(jié)點(diǎn),一幅圖往往比大段文字更能引發(fā)我們的有效思考。因此,全面的思維能力離不開(kāi)邏輯思維和形象思維的有機(jī)結(jié)合 —— 很多時(shí)候,帶有視覺(jué)形象的直覺(jué)對(duì)于形成有效的思維方向會(huì)起到關(guān)鍵作用。

  主流的多模態(tài)模型通過(guò)視覺(jué)編碼器與語(yǔ)言模型的前后結(jié)合,實(shí)現(xiàn)了對(duì)多模態(tài)混合輸入的支持。但是,后續(xù)的思考推理過(guò)程還是主要依賴純語(yǔ)言的推理。我們內(nèi)部研究中觀察到,這些模型過(guò)于依賴語(yǔ)言先驗(yàn),對(duì)于圖形和空間結(jié)構(gòu)的推理能力還很薄弱。比如,很多主流的多模態(tài)模型看見(jiàn)一個(gè)有“有六個(gè)手指頭的手掌”這種反先驗(yàn)的照片時(shí),還會(huì)說(shuō)出“五個(gè)手指”的回答。出現(xiàn)這種情況的一個(gè)重要原因是,在這些模型的工作機(jī)制中,圖像僅僅是為視為可被描述的輸入,而不是思考過(guò)程中的重要元素。打破這一局限的關(guān)鍵在于允許讓思考過(guò)程被圖形化表達(dá),形成直觀表象,從而引發(fā)新的思考。

  第四次破壁:突破與物理空間的邊界,實(shí)現(xiàn)多模態(tài)與真實(shí)世界中的交互

  具備完整的多模態(tài)知識(shí)和思維能力的模型是通向 AGI 的一個(gè)重要里程碑,但是還不是終點(diǎn),因?yàn)樗€不能在物理空間中行動(dòng),對(duì)物理世界產(chǎn)生影響。最終到達(dá) AGI 的彼岸,需要從數(shù)字空間走向物理空間。這需要對(duì)三維時(shí)空的理解、對(duì)物理規(guī)律的把握、以及對(duì)自身行動(dòng)的敏捷控制 —— 這不僅是一個(gè)“大腦”,而是“大腦-小腦-感官-四肢”敏捷高效的協(xié)同。從技術(shù)角度來(lái)看,這是一個(gè)軟硬件協(xié)同的開(kāi)放課題,需要多個(gè)方面的突破才能逐步達(dá)成目標(biāo)。

  實(shí)現(xiàn)這一階段突破的關(guān)鍵挑戰(zhàn)仍舊是數(shù)據(jù)。不同于自然語(yǔ)言或者圖像視頻,它們?cè)诨ヂ?lián)網(wǎng)上有海量存量;物理世界交互的數(shù)據(jù)天然是非常稀缺的。通過(guò)真機(jī)采集或者“遙操作”采集所得到的數(shù)據(jù),無(wú)論是體量和多樣性都比較有限,難以滿足構(gòu)建通用智能的需要。但是,如果這個(gè)問(wèn)題得到有效解決,我們就能給人工智能開(kāi)辟一片新的天地,并且回到智能的本源 —— 與世界的自主交互。

  從技術(shù)角度,世界模型是解決這一核心問(wèn)題的一種重要的可能途徑。世界模型可以建立在基于海量數(shù)據(jù)訓(xùn)練的多模態(tài)模型的基礎(chǔ)之上,獲得對(duì)這個(gè)世界的先驗(yàn)認(rèn)知,然后通過(guò)交互過(guò)程持續(xù)修正,實(shí)現(xiàn)和真實(shí)世界更好的對(duì)齊。一個(gè)有足夠真實(shí)度的世界模型可以作為一種“模擬器”,用于對(duì)空間智能體的訓(xùn)練,從而在很大程度上緩解上述的數(shù)據(jù)挑戰(zhàn)。當(dāng)然,世界模型本身也是一個(gè)極具挑戰(zhàn)性的課題,需要整個(gè)領(lǐng)域共同的努力來(lái)推動(dòng)它的進(jìn)展。

  商湯沿著智能的階段演進(jìn)的認(rèn)知展開(kāi)技術(shù)研發(fā)的布局,一步步推動(dòng)對(duì)智能邊界的探索。我們?cè)缭?2023 年初就推出了我國(guó)最早的多模態(tài)模型,走出了多模態(tài)智能探索的重要一步。在 2024 年突破了原生多模態(tài)融合訓(xùn)練技術(shù),在國(guó)內(nèi)最早把語(yǔ)言模型和圖文多模態(tài)模型融合為一個(gè)模型。最近,我們?cè)诙嗄B(tài)推理上取得重要進(jìn)展,實(shí)現(xiàn)了圖文交錯(cuò)的思維鏈,在此基礎(chǔ)上訓(xùn)練的日日新 6.5 具備了真正的多模態(tài)思考能力,綜合推理性能顯著提升。與此同時(shí),我們展開(kāi)了開(kāi)悟世界模型的探索,打通數(shù)字空間和物理空間連接的通道。

  4、為什么選擇做原生多模態(tài)?

  主要觀點(diǎn)

  • 多模態(tài)模型訓(xùn)練有兩種方式:適應(yīng)訓(xùn)練和原生訓(xùn)練。
  • 適應(yīng)訓(xùn)練難以深入掌握語(yǔ)言和視覺(jué)之間的內(nèi)在關(guān)聯(lián),只是讓模型僵硬地遵循后訓(xùn)練的范例模式。
  • 商湯通過(guò)大量對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),原生融合訓(xùn)練的模型可以更好建??缒B(tài)的關(guān)聯(lián),實(shí)現(xiàn)模態(tài)深度融合,以一個(gè)融合模型在純文本和圖文的評(píng)測(cè)上奪冠。
  • 視覺(jué)和語(yǔ)言模態(tài)的融合應(yīng)該在預(yù)訓(xùn)練的中段開(kāi)始進(jìn)行。
  • 多模態(tài)訓(xùn)練數(shù)據(jù)中,天然的圖文交錯(cuò)數(shù)據(jù),雖然量大但是圖文的關(guān)聯(lián)弱;提升性能主要是通過(guò)規(guī)?;瘶?gòu)造的圖文對(duì)數(shù)據(jù)。

  主流的多模態(tài)模型的整體架構(gòu)是類似的,由視覺(jué)編碼器(Visual encoder)、輸入投影器(Projector)和骨干網(wǎng)絡(luò)(Backbone)連接而成。視覺(jué)編碼器把輸入的圖像編碼為一個(gè) token 序列,然后經(jīng)由輸入投影器對(duì)齊到骨干網(wǎng)絡(luò)的輸入空間,而語(yǔ)言 token 一起由骨干網(wǎng)絡(luò)進(jìn)行計(jì)算處理。這里的每個(gè)模塊都帶有各自需要被訓(xùn)練的權(quán)重。

  多模態(tài)模型的兩種訓(xùn)練方式

  多模態(tài)模型的訓(xùn)練有兩種典型的方式:

  1. 適應(yīng)訓(xùn)練:給定一個(gè)已經(jīng)訓(xùn)練好的大語(yǔ)言模型和經(jīng)過(guò)預(yù)訓(xùn)練的視覺(jué)編碼器,在后訓(xùn)練階段,通過(guò)對(duì)視覺(jué)編碼器和投影器的微調(diào),實(shí)現(xiàn)視覺(jué)和語(yǔ)言表征的對(duì)齊。這是國(guó)內(nèi)多模態(tài)大模型常用的方式,它的好處是能夠以較低的成本快速獲得多模態(tài)能力。
  2. 原生訓(xùn)練:在預(yù)訓(xùn)練階段就融合多種模態(tài)的數(shù)據(jù)進(jìn)行訓(xùn)練,因此,模型從“原生”開(kāi)始就具備了多模態(tài)能力,而不是“后補(bǔ)”的。以 Google 和 OpenAI 為代表的頂尖機(jī)構(gòu)從采用這種方式。

  商湯自己的路徑選擇

  商湯在早期的多模態(tài)模型訓(xùn)練時(shí)也是采用了前者,但是我們很快就觀察到這種方式存在比較大的局限性。這種只經(jīng)過(guò)適應(yīng)訓(xùn)練的多模態(tài)模型,并沒(méi)有深入掌握語(yǔ)言和視覺(jué)模態(tài)之間的內(nèi)在關(guān)聯(lián),更多只是在僵硬地遵循后訓(xùn)練中那些范例的模式,從圖像中提取信息送給語(yǔ)言模塊進(jìn)行后續(xù)分析和輸出。而且,由于模型基座本身對(duì)多模態(tài)理解是有限的,采用強(qiáng)化學(xué)習(xí)也很難激發(fā)出很強(qiáng)的多模態(tài)能力。

  我們開(kāi)始思考,是否應(yīng)該走上原生多模態(tài)的道路。這不是一個(gè)容易的決定,因?yàn)樵?xùn)練所需的資源是顯著超過(guò)適應(yīng)訓(xùn)練的。除此之外,我們還面臨著兩個(gè)重要問(wèn)題:

  1. 有了原生多模態(tài)模型后,還是否需要保留一個(gè)單獨(dú)的語(yǔ)言模型?
  2. 語(yǔ)言和其它模態(tài)的融合應(yīng)該在什么時(shí)候進(jìn)行?預(yù)訓(xùn)練還是后訓(xùn)練?

  這些問(wèn)題的答案將決定商湯的長(zhǎng)期技術(shù)路徑。在 2024 年 5 月,也就是日日新 5.0 發(fā)布之后,我們成立了一個(gè)高優(yōu)先級(jí)的內(nèi)部專項(xiàng),投入了幾千 P 算力,通過(guò)大量對(duì)比實(shí)驗(yàn)嘗試回答上面的問(wèn)題。幾個(gè)月后,我們從大量實(shí)驗(yàn)結(jié)果中得到了關(guān)于上述問(wèn)題的明確結(jié)論:

  1. 在合適數(shù)據(jù)配比的條件下,融合訓(xùn)練的模型比單純的語(yǔ)言模型和專注圖文問(wèn)答的模型,在各自的任務(wù)上都表現(xiàn)得更加出色;而且,融合模型在處理帶文本的圖片、截圖、專業(yè)圖表等場(chǎng)景下顯著超越當(dāng)時(shí)的圖文問(wèn)答模型。
  2. 語(yǔ)言和視覺(jué)模態(tài)的融合應(yīng)該在預(yù)訓(xùn)練中段開(kāi)始進(jìn)行。我們觀察到,只在后訓(xùn)練比如 SFT 階段進(jìn)行融合訓(xùn)練,融合度是比較低的,模型對(duì)于跨模態(tài)關(guān)聯(lián)的掌握是面向具體任務(wù),泛化性比較弱;但是,過(guò)早進(jìn)行融合訓(xùn)練也沒(méi)有明顯的增益 —— 模型早期無(wú)論是視覺(jué)編碼器還是語(yǔ)言模型本身的基本能力還沒(méi)有建立起來(lái),因此也很難對(duì)跨模態(tài)關(guān)聯(lián)進(jìn)行有效建模。

  基于上述觀察,我們確定了融合模型的技術(shù)路徑:在預(yù)訓(xùn)練中段開(kāi)始進(jìn)行多模態(tài)融合訓(xùn)練,最終形成一個(gè)統(tǒng)一的原生多模態(tài)模型,不再生產(chǎn)單獨(dú)的語(yǔ)言模型。

  為了落實(shí)這一路徑,我們內(nèi)部還進(jìn)行研發(fā)組織的重構(gòu),保障各個(gè)條線的數(shù)據(jù)和研發(fā)進(jìn)展都匯聚到這個(gè)融合模型上。我們?cè)?2024 年第三季度完成了融合訓(xùn)練的數(shù)據(jù)配方和訓(xùn)練超參的驗(yàn)證,在第四季度完成了第一版千億參數(shù)級(jí)別的融合多模態(tài)模型訓(xùn)練。

  這個(gè)模型在國(guó)內(nèi)兩個(gè)權(quán)威的第三方評(píng)測(cè)平臺(tái) OpenCompass(司南)和 SuperCLUE 上面都位居國(guó)內(nèi)模型之首,其中在語(yǔ)言任務(wù)上和當(dāng)時(shí)剛發(fā)布的 DeepSeek V3 是并列的,在內(nèi)部業(yè)務(wù)評(píng)測(cè)中也有驚喜的表現(xiàn)。我們相信這個(gè)模型代表了當(dāng)時(shí)國(guó)內(nèi)多模態(tài)模型最好的水平,也堅(jiān)定了我們對(duì)于融合模型這一路徑的信心。

  從日日新 6.0 開(kāi)始,也包括在今年世界人工智能大會(huì)(WAIC)上面發(fā)布的日日新 6.5,都只有多模態(tài)模型,而沒(méi)有單獨(dú)的語(yǔ)言模型。這和國(guó)內(nèi)其它大模型廠商語(yǔ)言模型(LLM)和圖文模型(VLM)分立的布局有很大的區(qū)別。

  原生訓(xùn)練的數(shù)據(jù)挑戰(zhàn)

  原生多模態(tài)模型的訓(xùn)練能否成功,關(guān)鍵在于數(shù)據(jù)構(gòu)成。

  我們的原生多模態(tài)訓(xùn)練數(shù)據(jù),從模態(tài)組成的角度包含類型:自然語(yǔ)言、代碼、圖文交錯(cuò)文檔、圖文對(duì)、以及視頻和圖像序列數(shù)據(jù)。不同類型的數(shù)據(jù)用于不同的目的:比如語(yǔ)言數(shù)據(jù)可以幫助模型掌握語(yǔ)言能力并且獲得世界知識(shí);代碼數(shù)據(jù)主要面向編程能力,這不僅可以用于代碼助手,對(duì)于構(gòu)建智能體也是非常重要的。

  對(duì)于多模態(tài)理解,關(guān)鍵在于建模不同模態(tài)數(shù)據(jù)和語(yǔ)言的關(guān)聯(lián)。圍繞這一目標(biāo),有兩種數(shù)據(jù)形態(tài):圖文交錯(cuò),比如配圖的文章和新聞,還有就是學(xué)術(shù)界傳統(tǒng)常見(jiàn)的圖文對(duì)數(shù)據(jù)。這兩種數(shù)據(jù)有很不一樣的特點(diǎn)。圖文交錯(cuò)數(shù)據(jù)在互聯(lián)網(wǎng)、文獻(xiàn)書(shū)籍中廣泛存在,天然就有海量的儲(chǔ)量;而天然存在的圖文對(duì)相較之下是非常少的,很大程度需要人工標(biāo)注或者合成。

  在我們研發(fā)多模態(tài)模型的早期,就大量采用圖文交錯(cuò)數(shù)據(jù)來(lái)形成數(shù)據(jù)規(guī)模,然而發(fā)現(xiàn),大部分天然的圖文交錯(cuò)數(shù)據(jù)的圖文關(guān)聯(lián)是很弱的,對(duì)于整體性能的影響正面但有限;而圖文對(duì)雖然少,但是圖文關(guān)聯(lián)度強(qiáng),對(duì)于跨模態(tài)建模是很有幫助的。從 2024 年開(kāi)始,我們就投入很大力量研究大規(guī)模構(gòu)造多元化的圖文對(duì)數(shù)據(jù)的不同方法,包括從文本出發(fā),選擇或者合成相關(guān)的圖像,或者從圖像出發(fā),產(chǎn)生更多的問(wèn)題。這些方法的探索很有成效:目前,圖文對(duì)數(shù)據(jù)在跨模態(tài)數(shù)據(jù)中的占比已經(jīng)超過(guò) 70%,對(duì)于我們多模態(tài)模型性能提升起到關(guān)鍵作用。

  5、多模態(tài)推理的挑戰(zhàn)在哪里?

  主要觀點(diǎn)

  • 大模型推理的核心途徑是“思維鏈”。由于人工構(gòu)造成本高、難以規(guī)模化,思維鏈主要通過(guò)算法自動(dòng)構(gòu)造。
  • 強(qiáng)化學(xué)習(xí)也是以思維鏈為載體訓(xùn)練模型的推理能力,它和 SFT 的根本差別在于從“強(qiáng)行模仿”轉(zhuǎn)變?yōu)椤白园l(fā)探索”,讓模型在 “生成-驗(yàn)證-學(xué)習(xí)” 的算法閉環(huán)中持續(xù)改進(jìn)自身思維。
  • 推理模型的主要難點(diǎn)是在算法之外,主要有三重挑戰(zhàn):源問(wèn)題的多樣性、自動(dòng)化驗(yàn)證的有效性、思維鏈探索的效率。
  • 人的思考過(guò)程其實(shí)是真正意義的跨模態(tài)的,是邏輯思維和形象思維的結(jié)合。從技術(shù)角度,形象思維能給邏輯思維帶來(lái)互補(bǔ)的思維路徑,拓寬思路。
  • 邏輯思維和形象思維的結(jié)合,主要是通過(guò)圖文交錯(cuò)思維鏈實(shí)現(xiàn)的。
  • 圖文交錯(cuò)思維鏈的技術(shù)本質(zhì)是一個(gè)“內(nèi)省式”的智能體 —— 調(diào)用工具修改自己的思維過(guò)程。
  • 圖文交錯(cuò)思維鏈需要通過(guò)強(qiáng)化學(xué)習(xí)放大其作用,具體技術(shù)上實(shí)現(xiàn)要關(guān)注三個(gè)問(wèn)題:動(dòng)作空間的定義、混合獎(jiǎng)勵(lì)信號(hào)的設(shè)計(jì)、以及 Agentic RL 系統(tǒng)的優(yōu)化。

  隨著模型能力的提升,多模態(tài)模型正在被應(yīng)用在更復(fù)雜的場(chǎng)景中,比如文檔分析、醫(yī)療診斷、城市管理和科學(xué)發(fā)現(xiàn)。在這些場(chǎng)景中,我們需要模型匯聚多種形態(tài)的信息,進(jìn)行多步的推理才能得到有意義的結(jié)論,這就要求模型具備多模態(tài)推理的能力。

  推理模型的核心挑戰(zhàn)

  大模型進(jìn)行推理的核心途徑就是“思維鏈”(Chain-of-Thought)。為什么需要思維鏈呢?因?yàn)?,?fù)雜問(wèn)題的答案很多時(shí)候不是那么顯然的,很難通過(guò) next token 的概率分布直接輸出,因此需要一個(gè)逐步推演的路徑導(dǎo)出結(jié)論。

  思維鏈數(shù)據(jù)的構(gòu)造是這里面的核心挑戰(zhàn)。思維鏈數(shù)據(jù)是非常稀缺的,大部分要依賴人工編寫(xiě)或者算法構(gòu)造。人工編寫(xiě)的成本非常高,而且很難規(guī)?;K惴?gòu)造主要是“批量生成 + 驗(yàn)證篩選”的模式,就是從給定的源問(wèn)題出發(fā),讓模型或者智能體生成多條思維鏈,之后基于自動(dòng)化驗(yàn)證篩選出好的思維鏈用于訓(xùn)練。

  大模型早期,思維鏈主要是通過(guò)監(jiān)督學(xué)習(xí)(SFT)訓(xùn)練到模型的,這種范式對(duì)于預(yù)先構(gòu)造的思維鏈有很強(qiáng)的依賴,而且模型的泛化性也比較脆弱。強(qiáng)化學(xué)習(xí)的引入提供了新的范式:我們不再需要預(yù)先構(gòu)造思維鏈,只需要提供問(wèn)題和驗(yàn)證器;學(xué)習(xí)算法會(huì)讓模型自行探索不同的思維路徑,分別計(jì)算它們的獎(jiǎng)勵(lì)(Reward),選擇好的路徑對(duì)模型進(jìn)行更新。相比于監(jiān)督微調(diào)(SFT),強(qiáng)化學(xué)習(xí)的根本差別在于從”強(qiáng)行模仿“轉(zhuǎn)變?yōu)椤弊园l(fā)探索“,讓模型在 “生成-驗(yàn)證-學(xué)習(xí)” 的算法閉環(huán)中持續(xù)改進(jìn)自身的思維。強(qiáng)化學(xué)習(xí)這種以內(nèi)生為主的算法特點(diǎn),使得它所形成的思維鏈更貼近模型基座的原生模式,也有更好的泛化性。

  需要指出的是,無(wú)論是思維鏈的預(yù)先構(gòu)造還是強(qiáng)化學(xué)習(xí),我們都面臨著學(xué)習(xí)算法之外的三重技術(shù)挑戰(zhàn):

  1. 源問(wèn)題的多樣性:如何獲得足夠多樣化且具有挑戰(zhàn)性的源問(wèn)題;
  2. 自動(dòng)化驗(yàn)證的有效性:如何對(duì)生成的思維鏈進(jìn)行有效的自動(dòng)化驗(yàn)證;
  3. 思維鏈搜索的效率:如何提升生成好的思維鏈的概率和效率。

  事實(shí)上,在推理模型的訓(xùn)練實(shí)踐中,強(qiáng)化學(xué)習(xí)的選型,比如 PPO 還是 GRPO,對(duì)于最終性能的影響并沒(méi)有那么顯著。這幾個(gè)技術(shù)問(wèn)題才是推理模型訓(xùn)練的核心挑戰(zhàn)。這幾個(gè)問(wèn)題的應(yīng)對(duì)直接影響模型的推理能力,這是模型研發(fā)組織需要重點(diǎn)關(guān)注的。

  多模態(tài)推理和文本推理的異同

  到了 2025 年,主要的多模態(tài)模型已經(jīng)具備了一定的推理能力。值得注意的是,主流多模態(tài)模型的推理思維鏈還是純文本的。實(shí)質(zhì)上,它們做的是通過(guò)多模態(tài)理解的能力把輸入的圖像轉(zhuǎn)換為文本描述,然后利用語(yǔ)言推理模型進(jìn)行后續(xù)的推理。這只是多模態(tài)理解與純文本推理的嫁接,并沒(méi)有在推理過(guò)程中發(fā)揮其它模態(tài)的作用。這和人類思考有很大差別:人的思考過(guò)程其實(shí)是真正意義的跨模態(tài)的,是邏輯思維和形象思維的結(jié)合。

  形象思維是以直覺(jué)形象支撐的思維過(guò)程。所謂“一圖勝千言”,在很多時(shí)候,直觀形象相比邏輯思維可以幫助我們更快地抓住事物的關(guān)鍵和本質(zhì),從而引發(fā)新的思考。這也是人們通過(guò)幾何圖形、信息圖表、工業(yè)圖紙等形象方式表達(dá)復(fù)雜信息的原因。

  從技術(shù)角度,為什么形象思維能帶來(lái)推理能力的提升?我們可以從這樣的角度進(jìn)行思考:某種意義上,大模型其實(shí)是一個(gè)龐大的思維網(wǎng)絡(luò),所謂思維鏈,可以理解為在這個(gè)網(wǎng)絡(luò)中漫步所經(jīng)過(guò)的路徑。相較于邏輯思維,形象思維有一些很不一樣的特點(diǎn),比如跳躍性、整體性、直覺(jué)性等。有了形象思維,相當(dāng)于在這個(gè)思維網(wǎng)絡(luò)中增加了一批新的連接和捷徑,從而形成更強(qiáng)的直覺(jué)思維和發(fā)散思維。這對(duì)于整體思考能力的提升是有意義的。

  如何實(shí)現(xiàn)邏輯思維和形象思維的結(jié)合?我們認(rèn)為:可以借鑒思維鏈的做法,但是要在思維鏈中加入圖形化的元素,把部分思考過(guò)程轉(zhuǎn)化為圖形化表達(dá),從而引發(fā)新的思考路徑。這種思維鏈?zhǔn)且詧D文交錯(cuò)的形態(tài)存在的,在需要的地方插入圖形化的信息表達(dá)。我們?cè)谌杖招?6.5 的研發(fā)中嘗試引入了圖文交錯(cuò)思維鏈,已經(jīng)在實(shí)驗(yàn)中觀察到它們對(duì)于多模態(tài)推理能力的正面作用。

  圖文交錯(cuò)思維的技術(shù)挑戰(zhàn)

  到了實(shí)操層面,圖形化表達(dá)如何實(shí)現(xiàn)呢?這里有兩種思路,一種是內(nèi)生的混合模態(tài)思維鏈,就是思維鏈形成的過(guò)程中會(huì)自發(fā)產(chǎn)生視覺(jué)元素;另一種是在思考過(guò)程中根據(jù)需要調(diào)用工具進(jìn)行圖像編輯,比如放大局部區(qū)域或者添加輔助元素(輔助線、標(biāo)注點(diǎn)等)。

  在這兩種實(shí)現(xiàn)路徑的選擇上,我們考慮兩個(gè)問(wèn)題:目標(biāo)和效率。首先,需要明確的是,我們?cè)谶@里的目標(biāo),是以視覺(jué)要素引導(dǎo)思維,但是并不需要追求電影級(jí)的高清畫(huà)質(zhì);而且為了保證思考時(shí)間在一個(gè)可接受的范圍,每一個(gè)中間圖像的生成不能有太高的延時(shí)。而當(dāng)前的圖像生成技術(shù),無(wú)論是指令遵循的可靠性或者生成效率尚不能很好地滿足要求。

  基于這樣的觀察,我們選擇了兩步走的路徑:第一步,先通過(guò)調(diào)用工具進(jìn)行圖像編輯的方式,構(gòu)建圖文交錯(cuò)思維鏈,這種方式可以高效且精準(zhǔn)地實(shí)現(xiàn)構(gòu)圖目標(biāo)。這個(gè)方法的本質(zhì)其實(shí)是構(gòu)建一個(gè)“對(duì)內(nèi)”(introspective)的智能體。 通常意義的智能體是調(diào)用工具和外部世界進(jìn)行交互;這里的智能體也是調(diào)用工具,但是它不是為了和外界交互,而是和自身的思維過(guò)程交互。智能體不僅能對(duì)外,也能對(duì)內(nèi),這是我們看待智能體的新的維度。第一步的進(jìn)展,可以讓我們對(duì)于圖文交錯(cuò)思維的工作原理以及數(shù)據(jù)構(gòu)建方法論建立更加深入的理解。我們內(nèi)部正在推進(jìn)第二步的探索,就是基于多模態(tài)理解生成統(tǒng)一的機(jī)制實(shí)現(xiàn)內(nèi)生的圖文混合思考。我們相信這將為多模態(tài)推理打開(kāi)新的空間。

  從具體的技術(shù)構(gòu)建來(lái)看,相比于純文本思維鏈,圖文交錯(cuò)思維鏈的構(gòu)造更加挑戰(zhàn)。構(gòu)造者不僅要把思考過(guò)程寫(xiě)下來(lái),還得制作出作為思考節(jié)點(diǎn)的圖片,因此,很難以純?nèi)斯さ姆椒ㄟM(jìn)行大規(guī)模構(gòu)造。

  我們克服這個(gè)困難的途徑是:人工構(gòu)造種子 + 強(qiáng)化學(xué)習(xí)進(jìn)行規(guī)?;嵘?。具體而言,研究員根據(jù)對(duì)思維過(guò)程的理解先構(gòu)造出一批種子數(shù)據(jù),通過(guò)監(jiān)督微調(diào)(SFT)訓(xùn)練到模型當(dāng)中,使模型初步具備圖文交錯(cuò)思考的能力,之后通過(guò)多輪強(qiáng)化學(xué)習(xí)顯著提升模型的多模態(tài)推理能力。我們發(fā)現(xiàn),強(qiáng)化學(xué)習(xí)的效果非常顯著。在一個(gè)內(nèi)部多模思維的評(píng)測(cè)中,SFT 冷啟動(dòng)只帶來(lái)了有限提升(52.5 → 54.2),但是經(jīng)過(guò)多輪強(qiáng)化學(xué)習(xí)后,提升到了 76.3。

  要走通這個(gè)技術(shù)路徑,我們需要解決三個(gè)技術(shù)問(wèn)題:

  1. 動(dòng)作空間(action space)的定義。 我們首先需要定義這個(gè)“內(nèi)省式”智能體能對(duì)思維鏈中的圖像做哪些操作。這些操作需要在 SFT 階段讓模型都經(jīng)歷過(guò),這樣才能在后續(xù)的強(qiáng)化學(xué)習(xí)中激發(fā)它用這些操作進(jìn)行更多的圖文交錯(cuò)思維探索。我們當(dāng)前的動(dòng)作空間還是包括了局部放大、加掩膜(mask)、加輔助線、加標(biāo)注點(diǎn)等。雖然這個(gè)空間還比較有限,但是這些操作都非常實(shí)用,能解決很多問(wèn)題,而且動(dòng)作空間是可以在后續(xù)研究中不斷拓展的。
  2. 混合獎(jiǎng)勵(lì)信號(hào)(reward)的設(shè)計(jì)。 我們?cè)谟?xùn)練的時(shí)候融合了多種任務(wù),包括傳統(tǒng)的視覺(jué)感知、OCR、圖文問(wèn)答、數(shù)學(xué)、代碼、表格分析、GUI 操作,以及更具有開(kāi)放性的寫(xiě)作、高階任務(wù)等。我們?yōu)椴煌娜蝿?wù)設(shè)計(jì)了不同的 Reward,對(duì)于有客觀標(biāo)準(zhǔn)的任務(wù),我們采用了基于規(guī)則的驗(yàn)證器(Verifier),對(duì)于開(kāi)放任務(wù)訓(xùn)練了 Reward model。不同的任務(wù)在訓(xùn)練過(guò)程中是混合的,并且隨著訓(xùn)練的推進(jìn),我們會(huì)加大困難任務(wù)的比例,以促進(jìn)模型能力的循序提升。
  3. Agentic RL 系統(tǒng)的優(yōu)化。這里的強(qiáng)化學(xué)習(xí)實(shí)質(zhì)上是在訓(xùn)練一個(gè) Agent,因此需要 Agentic RL 能力的支持。為了提升訓(xùn)練效率,我們做了很多系統(tǒng)和算法的聯(lián)合優(yōu)化。這里和純文本條件下的 RL 有一個(gè)重要的區(qū)別,就是需要在學(xué)習(xí)的過(guò)程中需要給沙盒傳入很多圖像。因?yàn)槟P捅旧淼挠?jì)算是在 GPU 上進(jìn)行,而沙盒中進(jìn)行的圖像操作是在 CPU 上進(jìn)行,而且圖像的字節(jié)數(shù)比文本要多,是會(huì)帶來(lái)不可忽略的通信成本的,因而需要進(jìn)行系統(tǒng)性的優(yōu)化。

  經(jīng)過(guò)多輪強(qiáng)化學(xué)習(xí)后,整體的推理性能大幅提升。其中,數(shù)理、代碼、GUI 操作、圖表分析、高階任務(wù)等維度的提升尤為顯著。這個(gè)觀察顯示了,在多模態(tài)思維的設(shè)定下,強(qiáng)化學(xué)習(xí)對(duì)于激發(fā)思考的有效性依然有明顯作用。

  這種以思維鏈為載體,強(qiáng)化學(xué)習(xí)為主要途徑的新范式對(duì)于在特定領(lǐng)域的推理提升,效果是非常顯著的。但在真實(shí)應(yīng)用中,這種路線也面臨一些挑戰(zhàn),包括:更高的幻覺(jué)率、思考過(guò)程過(guò)于發(fā)散和冗長(zhǎng)、以及適用性受限(很多真實(shí)任務(wù)不容易對(duì)結(jié)果的正確性進(jìn)行明確驗(yàn)證)。這些困難的解決仍舊是開(kāi)放的問(wèn)題,比如更有效的過(guò)程監(jiān)督結(jié)合、更優(yōu)的獎(jiǎng)勵(lì)設(shè)計(jì)、以及更可泛化的獎(jiǎng)勵(lì)模型等等都是目前技術(shù)領(lǐng)域在積極探索的路徑。

  6、商湯的訓(xùn)練數(shù)據(jù)是如何生產(chǎn)出來(lái)的?

  主要觀點(diǎn)

  • 訓(xùn)練數(shù)據(jù)發(fā)展有三個(gè)趨勢(shì):規(guī)模成倍增長(zhǎng)、數(shù)據(jù)加工程度加深、專業(yè)高階數(shù)據(jù)價(jià)值凸顯。
  • 商湯的數(shù)據(jù)生產(chǎn)體系關(guān)注三個(gè)核心目標(biāo):多樣性、質(zhì)量、生產(chǎn)效率。
  • 要進(jìn)一步提升大模型智能,專業(yè)高階數(shù)據(jù)非常重要,但是獲取難度高,以產(chǎn)品服務(wù)的方式獲取是一條值得探索的路徑。
  • 隨著強(qiáng)化學(xué)習(xí)逐漸成熟,思維鏈的生成和篩選會(huì)更多在強(qiáng)化學(xué)習(xí)的過(guò)程中進(jìn)行,訓(xùn)練者只需要提供題目和驗(yàn)證器。這將從根本上緩解思維鏈構(gòu)建難的問(wèn)題。但是可泛化的驗(yàn)證器構(gòu)造會(huì)有較大的技術(shù)挑戰(zhàn)。

  對(duì)于大模型來(lái)說(shuō),訓(xùn)練數(shù)據(jù)的意義是根本性的。數(shù)據(jù)定義了模型的能力邊界,而模型架構(gòu)影響學(xué)習(xí)效率以及性能高度。

  訓(xùn)練數(shù)據(jù)發(fā)展的三個(gè)趨勢(shì)

  縱觀過(guò)去兩年大模型的發(fā)展,訓(xùn)練數(shù)據(jù)有三個(gè)方面的重要趨勢(shì):

  1. 預(yù)訓(xùn)練數(shù)據(jù)的規(guī)模成倍增長(zhǎng):從 GPT-3 的 500B tokens 到最近 Qwen-3 的 36T tokens,三年間增長(zhǎng)近百倍;
  2. 數(shù)據(jù)加工的程度越來(lái)越深:從最初的簡(jiǎn)單清洗和去重,發(fā)展到利用多智能體進(jìn)行數(shù)據(jù)清洗和過(guò)濾,到今天,用大模型對(duì)數(shù)據(jù)大規(guī)模重寫(xiě)成為了被廣泛采用的方法。數(shù)據(jù)加工所需要的計(jì)算成本已經(jīng)達(dá)到和預(yù)訓(xùn)練同一量級(jí)。我們相信未來(lái)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行離線處理所需的算力還將快速增長(zhǎng)。
  3. 專業(yè)高階數(shù)據(jù)的價(jià)值日趨凸顯:隨著模型智能水平的提升,互聯(lián)網(wǎng)或者書(shū)籍上獲得的常規(guī)數(shù)據(jù)已經(jīng)很難再推動(dòng)智能的進(jìn)一步升級(jí),圍繞專業(yè)問(wèn)題和高難度問(wèn)題的思維密集型數(shù)據(jù)是突破的關(guān)鍵。

  商湯的數(shù)據(jù)生產(chǎn)體系

  商湯從最早的時(shí)候開(kāi)始就深刻認(rèn)識(shí)到數(shù)據(jù)的重要意義,持續(xù)深耕多模態(tài)訓(xùn)練數(shù)據(jù)的建設(shè),形成了一套復(fù)雜的多模態(tài)數(shù)據(jù)生產(chǎn)體系,包含采集、清洗、質(zhì)檢、合成和模型驗(yàn)證等環(huán)節(jié)。我們對(duì)訓(xùn)練數(shù)據(jù)的建設(shè)圍繞三個(gè)核心目標(biāo):多樣性(Diversity)、質(zhì)量(Quality)和生產(chǎn)效率(Efficiency)。

  • 多樣性(Diversity) :訓(xùn)練數(shù)據(jù)需要覆蓋不同的學(xué)科、領(lǐng)域和專業(yè)層次,也需要有不同的來(lái)源和風(fēng)格。對(duì)于多模態(tài)模型的訓(xùn)練來(lái)說(shuō),不同模態(tài)數(shù)據(jù)的均衡配比也是很重要的。
  • 質(zhì)量(Quality) :對(duì)于大模型訓(xùn)練而言,數(shù)據(jù)的質(zhì)量是生命線。日日新大模型系列從 1.0 發(fā)展到 6.0,每一次能力升級(jí),數(shù)據(jù)質(zhì)量的提升都起到重要作用;當(dāng)我們發(fā)現(xiàn)模型的表現(xiàn)有問(wèn)題時(shí),追根溯源,往往發(fā)現(xiàn)是源自數(shù)據(jù)質(zhì)量的瑕疵。經(jīng)過(guò)近兩年的發(fā)展,業(yè)界對(duì)數(shù)據(jù)質(zhì)量要求的內(nèi)涵也在不斷豐富,現(xiàn)在我們不僅要求數(shù)據(jù)是干凈的,而且對(duì)于其中的信息密度、思維密度也提出了要求。

  為了保證數(shù)據(jù)的質(zhì)量水平,我們主要是通過(guò)模型檢驗(yàn)數(shù)據(jù),標(biāo)準(zhǔn)很簡(jiǎn)單,每一批數(shù)據(jù)投入真正的生產(chǎn)訓(xùn)練之前,我們都會(huì)在我們最新版的模型和業(yè)內(nèi)最好的開(kāi)源模型進(jìn)行續(xù)訓(xùn),如果性能有增益,就說(shuō)明這一批數(shù)據(jù)是有正面價(jià)值的。

  • 生產(chǎn)效率(Efficiency) :大模型訓(xùn)練需要海量的高質(zhì)量數(shù)據(jù),而且模型迭代節(jié)奏很快。這就需要我們的數(shù)據(jù)生產(chǎn)系統(tǒng)的效率要跟得上訓(xùn)練的節(jié)奏,不能拖后腿。數(shù)據(jù)生產(chǎn)的流程管線日趨復(fù)雜,當(dāng)越來(lái)越多的處理邏輯被集成到生產(chǎn)過(guò)程,不可避免帶來(lái)效率上的負(fù)擔(dān),因此需要持續(xù)進(jìn)行優(yōu)化。當(dāng)前,我們的數(shù)據(jù)生產(chǎn)系統(tǒng)滿載處理的時(shí)候可以每天生產(chǎn) 5T tokens,足以充分保障迭代需求。

  高階專業(yè)數(shù)據(jù)的獲取

  正如前文所述,隨著大模型智能水平的提升,專業(yè)高階數(shù)據(jù)(比如數(shù)學(xué)解題的思維鏈、醫(yī)療診斷背后的判斷過(guò)程、一份代碼背后的構(gòu)架思考)日趨重要。這些數(shù)據(jù)是引導(dǎo)模型從“知其然”(表層模式)到“知其所以然”(深層邏輯)進(jìn)化的關(guān)鍵。

  高階數(shù)據(jù)天然非常稀缺,在早期主要依靠請(qǐng)大學(xué)生或者專業(yè)人士進(jìn)行標(biāo)注,不僅費(fèi)用高昂,而且效率很低。據(jù)報(bào)道,OpenAI 正在以 100 美元時(shí)薪甚至更高的價(jià)格來(lái)聘請(qǐng)領(lǐng)域?qū)<疫M(jìn)行高階數(shù)據(jù)標(biāo)注。商湯的交互模型有很強(qiáng)的擬人和推動(dòng)劇情的能力,其背后也離不開(kāi)很多編劇編寫(xiě)的高水平對(duì)話數(shù)據(jù)。

  面對(duì)挑戰(zhàn),商湯也在積極探索更加高效的路徑:

  • 以人工編寫(xiě)的數(shù)據(jù)作為種子,通過(guò)自動(dòng)化管線進(jìn)行增廣。經(jīng)過(guò)長(zhǎng)時(shí)間努力,商湯的研究團(tuán)隊(duì)已經(jīng)搭建了面向不同類型的專業(yè)高階數(shù)據(jù)的規(guī)?;铣晒芫€,通過(guò)多智能體協(xié)作進(jìn)行思維鏈的合成和驗(yàn)證。比如,在合成多模態(tài)思維鏈的時(shí)候,我們的管線會(huì)先產(chǎn)生某個(gè)主題,然后尋求相關(guān)概念的圖像進(jìn)行重組合成新的圖像,然后遵循某種思維路徑合成思維鏈路,最終由智能體進(jìn)行正確性和質(zhì)量的驗(yàn)證。
  • 按照預(yù)設(shè)路徑的方法合成的思維鏈主要的問(wèn)題是多樣性不足。為了解決這一問(wèn)題,一方面可以擴(kuò)大種子數(shù)據(jù)的多樣性;另一方面,在高難度題目的牽引下,通過(guò)“路徑搜索”,也就是生成多種路徑并進(jìn)行驗(yàn)證篩選,來(lái)找到更加復(fù)雜的思維鏈。
  • 在產(chǎn)品服務(wù)中自然獲取數(shù)據(jù)也是被業(yè)界積極嘗試的途徑。這背后的想法就是通過(guò)向?qū)I(yè)用戶提供好用的工具,在幫助他們工作的同時(shí)也能捕捉其從問(wèn)題出發(fā)獲得結(jié)果的過(guò)程。這個(gè)途徑更貼近場(chǎng)景、也更容易規(guī)?;@取,但是很需要產(chǎn)品服務(wù)層面的巧思。

  從技術(shù)發(fā)展的總體趨勢(shì)看來(lái),隨著強(qiáng)化學(xué)習(xí)逐漸成熟,思維鏈的生成和篩選會(huì)更多在強(qiáng)化學(xué)習(xí)的過(guò)程中進(jìn)行,訓(xùn)練者只需要提供題目和驗(yàn)證器。這將從根本上緩解思維鏈構(gòu)建難的問(wèn)題。我們?cè)谘芯繄D文交錯(cuò)思維的時(shí)候,就是采用了這一思路:只是人工構(gòu)建少數(shù)的種子,主要的訓(xùn)練過(guò)程是通過(guò)強(qiáng)化學(xué)習(xí)完成(參見(jiàn)上一節(jié))。但需要注意的是,驗(yàn)證器的構(gòu)造,尤其是面向開(kāi)放場(chǎng)景的可泛化驗(yàn)證器,在技術(shù)上也有很多挑戰(zhàn),是我們需要再后續(xù)工作中重點(diǎn)關(guān)注的。

  7、模型設(shè)計(jì)有哪些思考?模型尺寸和架構(gòu)未來(lái)如何演進(jìn)?

  主要觀點(diǎn)

  • 模型架構(gòu)設(shè)計(jì)的核心是效率。
  • 日日新 6.5 的架構(gòu)優(yōu)化的重點(diǎn)是通過(guò)輕量化的視覺(jué)編碼器,實(shí)現(xiàn)視覺(jué)信息和語(yǔ)言信息應(yīng)該在更早期就進(jìn)行融合。
  • 模型尺寸的選取趨于務(wù)實(shí),更優(yōu)的性能-成本曲線比單純追求大尺寸更加重要。
  • 大模型的應(yīng)用落地正在加速,多智能體是突破工業(yè)紅線的重要范式。
  • 主流模型架構(gòu)效率還非常低(相比于人腦),未來(lái)模型架構(gòu)演進(jìn)的核心仍將是效率提升,比如通過(guò)進(jìn)一步的稀疏化以及功能分化(e.g. 知識(shí)和推理解耦);同時(shí)多模態(tài)理解生成統(tǒng)一、快慢思考的融合都是值得探索的方向。

  模型架構(gòu)設(shè)計(jì)的核心是效率。一個(gè)好的模型架構(gòu),能夠以更低的代價(jià)實(shí)現(xiàn)從數(shù)據(jù)到模型能力的轉(zhuǎn)化。

  大模型最初采用的是稠密 Transformer 架構(gòu)(GPT-3、Llama),它的計(jì)算復(fù)雜度隨參數(shù)量線性增長(zhǎng),隨著上下文長(zhǎng)度呈平方增長(zhǎng)。因此,隨著參數(shù)量增長(zhǎng),上下文變長(zhǎng),它的計(jì)算成本就成為一個(gè)焦點(diǎn)問(wèn)題。圍繞這個(gè)問(wèn)題有很多探索,主要包括:

  1. 模型架構(gòu)的稀疏化:在保持總參數(shù)量的條件下,減少每次計(jì)算的激活參數(shù),從而降低計(jì)算代價(jià)?;旌蠀?shù)(MoE)就是這個(gè)方向的典型,已經(jīng)被業(yè)界廣泛采用。另外,對(duì)模型參數(shù)進(jìn)行剪枝和低比特量化也是降低計(jì)算成本的有效途徑。
  2. 高效的注意力機(jī)制:注意力機(jī)制的效率不僅影響算力成本,還直接影響模型的響應(yīng)延時(shí)和用戶體驗(yàn),一直收到行業(yè)的高度關(guān)注。Sparse attention、Linear attention、Paged attention 等不同機(jī)制被提出來(lái),從不同角度降低注意力機(jī)制的復(fù)雜度。PD 分離等系統(tǒng)架構(gòu)上的優(yōu)化也是讓 KV Cache 被更高效運(yùn)用的架構(gòu)范式。

  日日新 6.5 背后的多模態(tài)架構(gòu)優(yōu)化

  對(duì)于多模態(tài)模型,架構(gòu)設(shè)計(jì)的復(fù)雜度多了一個(gè)維度,就是視覺(jué)編碼器(Visual Encoder)。雖然視覺(jué)編碼器的參數(shù)量占比不高(在日日新 6.0 里,視覺(jué)編碼器參數(shù)量只有 MLLM 主干參數(shù)的 1%),但是因?yàn)樗鼘?duì)于每個(gè)圖像都要處理多個(gè) patch,因此在端到端的計(jì)算延時(shí)上占比達(dá)到 30% 。真實(shí)應(yīng)用中,很多時(shí)候要處理大分辨率的圖像(比如設(shè)計(jì)圖、文檔表單等),因此占比更高。所以,在多模態(tài)架構(gòu)設(shè)計(jì)中,視覺(jué)編碼模塊的優(yōu)化是重要的議題。

  在模型設(shè)計(jì)中,我們重新思考了視覺(jué)編碼器和 MLLM 主干的功能定位。我們認(rèn)為,“眼睛”和“大腦”的設(shè)計(jì)是有本質(zhì)區(qū)別的,前者主要是捕捉視覺(jué)信號(hào),這是一種連續(xù)信號(hào),而且是受分辨率影響的;后者主要是在語(yǔ)言和語(yǔ)義層面進(jìn)行計(jì)算,而語(yǔ)言的表示方式是離散的(以 token 為單元)。這就決定了,視覺(jué)感知和語(yǔ)言模型應(yīng)該有不一樣的模型結(jié)構(gòu)和學(xué)習(xí)方式。

  視覺(jué)編碼器應(yīng)該聚焦在感知功能上,對(duì)視覺(jué)信號(hào)更加敏感,專注于視覺(jué)編碼。涉及到語(yǔ)義相關(guān)的處理,應(yīng)該及早和 LLM 主干進(jìn)行融合。所以,在日日新 6.5 里面,我們推動(dòng)視覺(jué)編碼器輕量化的設(shè)計(jì),把視覺(jué)編碼器的體積從 6B 減到 1B,從而實(shí)現(xiàn)更敏捷的感知;同時(shí)把 MLLM 主干變深(層數(shù)更多)變窄,以適應(yīng)深度推理的需要。經(jīng)過(guò)這樣的改動(dòng),模型可以更快捷地處理高分辨率大圖以及長(zhǎng)視頻;再加上對(duì)訓(xùn)練數(shù)據(jù)的進(jìn)一步優(yōu)化,模型在同樣性能表現(xiàn)下的效率提升超過(guò) 3 倍。我們?cè)诩軜?gòu)優(yōu)化上的努力使得性能成本曲線得以顯著優(yōu)化,實(shí)現(xiàn)了比 Gemini 2.5 系列更優(yōu)的效費(fèi)比。

  模型尺寸未來(lái)是否會(huì)進(jìn)一步增長(zhǎng)

  在大模型時(shí)代早期,尺度定律在很大程度上驅(qū)動(dòng)著模型能力的競(jìng)爭(zhēng)和發(fā)展,模型規(guī)模曾突破萬(wàn)億。Google 早在 2021 年就發(fā)表了萬(wàn)億參數(shù)的 Switch Transformer,這也是較早嘗試把 MoE 和 Transformer 結(jié)合的工作。但是,業(yè)界很早就觀察到模型參數(shù)量并不是模型能力的唯一要素。DeepMind 在 2022 年的一篇論文中就基于詳盡的實(shí)驗(yàn)分析指出:模型參數(shù)量和訓(xùn)練數(shù)據(jù)量應(yīng)該同步增長(zhǎng)(“for compute-optimal training, the model size and the number of training tokens should be scaled equally”)。

  我們可以看到,從 2023 年至今,開(kāi)源模型的參數(shù)量主要都設(shè)在 1B ~ 100B 的量級(jí),并且逐漸形成了一種分層格局:百 B 級(jí)別的模型主要是性能天花板的競(jìng)爭(zhēng);7B ~ 30B 級(jí)別的模型被普遍用于垂直業(yè)務(wù);1B ~ 3B 的模型主要瞄準(zhǔn)端側(cè)應(yīng)用,或者用于業(yè)務(wù)工作流的轉(zhuǎn)接環(huán)節(jié)(文檔解析、Prompt 改寫(xiě)、意圖分類等)。今年以來(lái),隨著 MoE 的逐漸普及,主力模型的總參數(shù)量被提升到幾百 B,但是激活參數(shù)基本維持在 20B ~ 30B 的水平。至于企業(yè)里面用于服務(wù) C 端產(chǎn)品的閉源模型,據(jù)我們了解,出于服務(wù)成本和效率的考慮,也沒(méi)有比上述的尺寸更大。

  模型尺寸在過(guò)去兩年保持平穩(wěn),有兩個(gè)關(guān)鍵的原因:1)隨著大模型走向商業(yè)化,價(jià)格競(jìng)爭(zhēng)激烈,各個(gè)企業(yè)選擇模型尺寸時(shí)趨于務(wù)實(shí),而不是盲目追求參數(shù)量的超越;2)隨著數(shù)據(jù)質(zhì)量和訓(xùn)練水平提升,中小模型的性能進(jìn)步顯著,在很多重要指標(biāo)上已經(jīng)可以比肩 GPT-4。我們認(rèn)為,這樣的趨勢(shì)是符合經(jīng)濟(jì)規(guī)律和技術(shù)規(guī)律的,未來(lái)模型的發(fā)展主要還是圍繞著效率提升這一核心目標(biāo),以加速實(shí)用化的進(jìn)程。

  多智能體:突破紅線的重要范式

  與此同時(shí),有兩個(gè)重要趨勢(shì)非常值得關(guān)注:

  1. 模型調(diào)用量正以指數(shù)式成長(zhǎng)。IDC 報(bào)告指,從 2024 年 6 月到 12 月半年間,中國(guó)大模型服務(wù)的日均調(diào)用 token 數(shù)提升超過(guò) 10 倍,2025 年還在加速。在商湯內(nèi)部,我們也觀察到多個(gè)業(yè)務(wù)的模型調(diào)用量呈現(xiàn)跨數(shù)量級(jí)的增長(zhǎng)。
  2. 模型的數(shù)量也在快速增長(zhǎng)。HuggingFace 平臺(tái)上的模型數(shù)量已經(jīng)接近 200 萬(wàn)個(gè)(2025 年 7 月),而這個(gè)數(shù)字在一年半之前(2023 年底)才在 1 萬(wàn)附近。

  大模型從“大”到“多”,背后反映的是大模型正在經(jīng)濟(jì)生活中加速滲透,其應(yīng)用邊界在快速拓寬,人們?cè)谌粘I罟ぷ髦袑?duì)大模型的依賴也明顯加深。

  對(duì)于 AI 的商業(yè)化來(lái)說(shuō),我們正在經(jīng)歷一個(gè)歷史性的黃金時(shí)期,是值得我們以最大的努力去把握的。為此,關(guān)鍵的不是追求模型規(guī)模,而是在一個(gè)個(gè)的場(chǎng)景中打穿工業(yè)紅線,讓技術(shù)達(dá)到可規(guī)模化商用的水平。

  要實(shí)現(xiàn)突破特定方向的紅線,要兩種可能的路徑:1)打造“超人”:持續(xù)提升單個(gè)模型或智能體的規(guī)模和水平;2)打造“團(tuán)隊(duì)”:讓多個(gè)智能體協(xié)作達(dá)成目標(biāo)。后者就是業(yè)內(nèi)現(xiàn)在經(jīng)常討論的多智能體。我們比較這兩種路徑。一個(gè)超級(jí)模型在很多方向突破紅線,超越人類,這是存在可能性的。但是這里有兩個(gè)問(wèn)題,這樣的模型研發(fā)周期非常長(zhǎng),資源投入巨大;而且,在現(xiàn)有的技術(shù)水平下,這個(gè)模型會(huì)變得特別昂貴 —— GPT 4.5 和 Grok 4 的價(jià)單其實(shí)已經(jīng)初步反映了這個(gè)問(wèn)題。相比而言,多智能體的路徑更為務(wù)實(shí),并且在多個(gè)專業(yè)領(lǐng)域顯示出巨大的潛力。比如,最近 Google DeepMind 獲得數(shù)學(xué)國(guó)際奧賽金牌的 Deep Think 就是一個(gè)多智能體架構(gòu)的系統(tǒng)。在商湯,小浣熊背后也是一個(gè)多智能體架構(gòu),它在面對(duì)復(fù)雜業(yè)務(wù)場(chǎng)景的時(shí)候,顯示出比單一大模型更強(qiáng)的表現(xiàn)。

  模型架構(gòu)的未來(lái)演進(jìn):提效與融合

  模型架構(gòu)未來(lái)演進(jìn)的核心目標(biāo)之一仍然是效率的持續(xù)提升。 目前大模型的計(jì)算能效相比與人腦還有著多個(gè)數(shù)量級(jí)的差距。在這樣的架構(gòu)效率下,去追求超級(jí)智能的代碼將是無(wú)比高昂的。從追求 AGI 的長(zhǎng)期目標(biāo)而言,先尋求更高效的路徑(比如接近人腦的效率),然后放大,可能是更理想的策略。

  要實(shí)現(xiàn)模型效率的進(jìn)一步提升,有“稀疏化”和“功能分化”兩個(gè)重要方向。 稀疏化就是減少每次計(jì)算的激活占比,僅使用必需的神經(jīng)元,以降低計(jì)算能耗。功能分化是指:根據(jù)不同功能的 Scale 規(guī)律進(jìn)行相應(yīng)的設(shè)計(jì),并把它們有機(jī)組合在一起。比如,很多分析指出,模型的知識(shí)容量和總參數(shù)相關(guān)度比較高,而推理性能更取決與激活參數(shù),那么知識(shí)儲(chǔ)備和推理能力就應(yīng)該適當(dāng)解耦,沿著更合理的方式進(jìn)行配比;就像芯片一樣給于不同的功能單元以不同的空間,或者類似人的大腦那樣形成不同功能的皮層。

  除此之外,“融合”也是突破模型現(xiàn)有能力邊界的重要途徑。在過(guò)去的工作中,我們已經(jīng)看到了語(yǔ)言和視覺(jué)的融合所帶來(lái)的多模態(tài)能力的整體提升。展望未來(lái),以下兩個(gè)方向的融合也是值得我們關(guān)注的:

  多模態(tài)的理解生成統(tǒng)一。目前,主流的多模態(tài)理解模型和多模態(tài)生成模型是兩個(gè)有顯著差異的方向,前者采用 MLLM 的自回歸架構(gòu),主要用于圖文問(wèn)答;后者以擴(kuò)散模型為核心架構(gòu),主要用于圖像視頻生成。它們的研發(fā)目標(biāo)也是不同的,前者主要聚焦在語(yǔ)義邏輯,但是空間理解能力薄弱,后者主要追求高品質(zhì)的生成效果,但是可控性和結(jié)構(gòu)的真實(shí)性一直面臨挑戰(zhàn)。多模態(tài)理解生成統(tǒng)一的探索,主要是希望通過(guò)把兩者在架構(gòu)和訓(xùn)練目標(biāo)上進(jìn)行彌合,從而實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ):更強(qiáng)的空間理解 + 更可控的精準(zhǔn)生成。我們認(rèn)為,這是一個(gè)值得探索的方向,但是不應(yīng)該停留在簡(jiǎn)單的架構(gòu)縫合,而是要著力于對(duì)其內(nèi)在機(jī)理的理解,從而實(shí)現(xiàn)真正意義的能力躍升。

  常規(guī)模型和慢思考的統(tǒng)一。帶有慢思考過(guò)程的推理模型相比于普通模型在推理性能上有代差級(jí)別的顯著進(jìn)步,在近幾個(gè)月成為領(lǐng)域競(jìng)爭(zhēng)的焦點(diǎn)。但是它們?cè)趹?yīng)用中也暴露出一些重要問(wèn)題,比如冗長(zhǎng)且發(fā)散的思維鏈、更高的幻覺(jué)率、以及可靠性和可控性的挑戰(zhàn)等。我們認(rèn)為,目前常規(guī)模型和推理模型分立的情況是 AI 進(jìn)入推理階段早期的一個(gè)暫時(shí)狀態(tài)。一個(gè)具有較高智能水平的智能體(比如“人”)應(yīng)該能根據(jù)情況需要,比如問(wèn)題的挑戰(zhàn)性以及是否有充足的思考時(shí)間,來(lái)自主選擇不同的思考長(zhǎng)度。而且,一個(gè)良好的學(xué)習(xí)范式應(yīng)該能讓不同條件下的思考能力都得到平衡的提升。

  商湯在日日新 6.5 版本嘗試把常規(guī)模型和推理模型融為一體,觀察到了積極的效果,兩種模式的協(xié)同訓(xùn)練,一方面給常規(guī)模式下的推理能力帶來(lái)提升,另一方面也在一定程度上緩解了推理模式的幻覺(jué)。因此我們可以用一個(gè)模型支撐兩種模式(需要前置設(shè)定模式)。我們目前在這兩者統(tǒng)一的探索上還處在相對(duì)早期,未來(lái)還將推進(jìn)思考模式的深層融合,使得模型可以做得動(dòng)態(tài)自適應(yīng)切換。

  8、從多模態(tài)到具身智能,會(huì)面臨哪些挑戰(zhàn)?

  主要觀點(diǎn)

  • 具身智能當(dāng)前首先需要解決的是交互學(xué)習(xí)的效率問(wèn)題。
  • 世界模型是解決交互學(xué)習(xí)效率的關(guān)鍵技術(shù)途徑,其核心是對(duì)真實(shí)物理規(guī)律和空間結(jié)構(gòu)的有效掌握,因此,通常的視頻生成模型還不是真正意義的世界模型。
  • 世界模型的構(gòu)建需要海量數(shù)據(jù)支撐。多模態(tài)模型為世界模型提供好的基礎(chǔ)。

  當(dāng) AI 從數(shù)字空間走到物理空間,和真實(shí)世界進(jìn)行交互,我們面臨的挑戰(zhàn)是:物理世界的交互很難進(jìn)行文字記錄,因此需要從實(shí)際交互過(guò)程學(xué)習(xí)。

  跟其它學(xué)習(xí)階段一樣,學(xué)習(xí)效率是核心挑戰(zhàn)。采用真機(jī)交互的效率很低(無(wú)論是直接交互還是遙操作),當(dāng)前只能滿足特定場(chǎng)景的需要,很難像大語(yǔ)言模型那樣依托海量互聯(lián)網(wǎng)數(shù)據(jù)形成通用能力。而通過(guò)視頻模擬學(xué)習(xí),精細(xì)度以及領(lǐng)域鴻溝(domain gap)離可用還有比較遠(yuǎn)的距離。因此,在這個(gè)階段,首要解決的是交互學(xué)習(xí)的效率問(wèn)題。

  一個(gè)很直接的想法,就是通過(guò)一個(gè)虛擬系統(tǒng)模擬現(xiàn)實(shí)世界的交互,讓智能體在這個(gè)系統(tǒng)里面的每個(gè)動(dòng)作都能獲得合適的接近真實(shí)的反饋。這個(gè)虛擬系統(tǒng)的核心就是“世界模型”,它基于對(duì)空間結(jié)構(gòu)和物理規(guī)律的把握會(huì)對(duì)虛擬的具身智能體的動(dòng)作做出接近真實(shí)的反應(yīng)。由于世界模型的交互效率遠(yuǎn)高于真實(shí)環(huán)境,以此有望顯著提升交互學(xué)習(xí)的效率。

  世界模型的技術(shù)關(guān)鍵是對(duì)于空間結(jié)構(gòu)和物理規(guī)律的精準(zhǔn)掌握以及多樣化場(chǎng)景的覆蓋。通常的視頻生成模型只是捕捉了世界的視覺(jué)側(cè)面,并沒(méi)有對(duì)真實(shí)物理規(guī)律和空間結(jié)構(gòu)的有效掌握,因此還不能視為真正意義的世界模型。

  世界模型的構(gòu)建是需要海量數(shù)據(jù)支撐的。商湯的開(kāi)悟世界模型是在我們的多模態(tài)模型能力基礎(chǔ)上構(gòu)建起來(lái) —— 這個(gè)多模態(tài)模型本身就壓縮了關(guān)于這個(gè)世界的海量數(shù)據(jù)。通過(guò)智能汽車業(yè)務(wù)獲得的大量真實(shí)場(chǎng)景數(shù)據(jù)進(jìn)行加強(qiáng),世界模型就因而具備了很強(qiáng)的模擬和生成能力,可以根據(jù)指定路徑生成不同視角的視頻。這個(gè)模型在我們的智能駕駛系統(tǒng)訓(xùn)練中提供了很有效的交互反饋,從而幫助我們的智能駕駛系統(tǒng)更高效地訓(xùn)練。

  注:關(guān)于世界模型和具身智能,由于篇幅關(guān)系,這里只做簡(jiǎn)要的闡述。后面我們也考慮在合適時(shí)間進(jìn)行更詳細(xì)的分享。

  9、商湯如何建設(shè)一支有高效且富有創(chuàng)新力的研究力量? 

  主要觀點(diǎn)

  • 創(chuàng)新人才都是技術(shù)變革的核心驅(qū)動(dòng)力量。
  • 面對(duì)激烈競(jìng)爭(zhēng),研究團(tuán)隊(duì)需要具備更高的組織度,以實(shí)現(xiàn)更高的迭代效率;同時(shí),也需要有充分的技術(shù)探索空間,以保持創(chuàng)新的活力。
  • 商湯是基于技術(shù)規(guī)律出發(fā)設(shè)計(jì)研究組織,關(guān)注兩個(gè)關(guān)鍵要素:方向和效率。
  • 商湯對(duì)研究團(tuán)隊(duì)進(jìn)行了多方面重構(gòu):資源統(tǒng)一調(diào)度、專項(xiàng)創(chuàng)新、系統(tǒng)提效、獨(dú)立評(píng)測(cè)。

  在人工智能發(fā)展的每一個(gè)歷史階段,創(chuàng)新人才都是技術(shù)變革的核心驅(qū)動(dòng)力量。在大模型時(shí)代,這一點(diǎn)也沒(méi)有改變。 在最近一段時(shí)間,人工智能研究人才的高價(jià)薪酬引起了廣泛關(guān)注。這背后代表了領(lǐng)域里面正在形成的共識(shí)—— 在研發(fā)路徑高度同質(zhì)化的當(dāng)下,年輕研究者的創(chuàng)新精神是破局的關(guān)鍵。

  在商湯科技過(guò)去十年的發(fā)展中,孕育了一支富有創(chuàng)新精神且有強(qiáng)大戰(zhàn)斗力的研究團(tuán)隊(duì)。他們?cè)谏虦┰郊夹g(shù)周期的每一次變革中扮演著重要角色,憑借其前瞻的視野和不懈的探索,和產(chǎn)品業(yè)務(wù)團(tuán)隊(duì)共同定義我們前行的道路,讓公司持續(xù)保持競(jìng)爭(zhēng)力。

  在 AI 2.0 時(shí)代,研究組織也面臨新的挑戰(zhàn) —— 大模型的訓(xùn)練高度依賴數(shù)據(jù)和算力的聚集,而且外部競(jìng)爭(zhēng)加劇,這要求我們的研究團(tuán)隊(duì)需要具備更高的組織度,以實(shí)現(xiàn)更高的迭代效率;同時(shí),也需要有充分的技術(shù)探索空間,以保持創(chuàng)新的活力。如何應(yīng)對(duì)這樣的挑戰(zhàn)是每個(gè)公司研究組織必需回答的命題。

  我們構(gòu)建研究組織的整體思路是:從技術(shù)規(guī)律出發(fā)設(shè)計(jì)組織結(jié)構(gòu)。這里面有兩個(gè)關(guān)鍵因素:一是方向,保證技術(shù)迭代的方向和公司戰(zhàn)略是一致的,這里評(píng)測(cè)的導(dǎo)向是關(guān)鍵抓手;二是效率,讓迭代的效率足夠高,保證在我們專注的方向中走在業(yè)界前列。

  在 AI 2.0 時(shí)代,商湯對(duì)研究組織進(jìn)行了幾個(gè)方面的重構(gòu):

  1. 原來(lái)分散在各個(gè)事業(yè)部的研發(fā)團(tuán)隊(duì)進(jìn)行整合,算力和數(shù)據(jù)等技術(shù)資源也在集團(tuán)層面整體配置,保障了研究力量可以根據(jù)技術(shù)迭代的需要進(jìn)行統(tǒng)一且靈活的配置。在幾次關(guān)鍵的攻堅(jiān)任務(wù)中,這種統(tǒng)一架構(gòu)起到了關(guān)鍵作用,使得資源得以有效集中;在過(guò)去一年訓(xùn)練范式變遷的趨勢(shì)下,我們也通過(guò)這種機(jī)制及時(shí)加大了對(duì)強(qiáng)化學(xué)習(xí)的投入。
  2. 商湯早期的大模型研究團(tuán)隊(duì)架構(gòu)也是遵循業(yè)界主流的預(yù)訓(xùn)練、微調(diào)、多模態(tài)分工模式,各自會(huì)訓(xùn)練不同的模型。隨著我們突破了原生融合訓(xùn)練的技術(shù)路徑,我們根據(jù)新范式調(diào)整了研究體系,只保留了一個(gè)集成訓(xùn)練團(tuán)隊(duì)來(lái)集中訓(xùn)練日日新多模態(tài)模型,其它團(tuán)隊(duì)各自承擔(dān)不同的領(lǐng)域,貫穿預(yù)訓(xùn)練、微調(diào)和強(qiáng)化學(xué)習(xí)來(lái)進(jìn)行端到端研發(fā),進(jìn)行數(shù)據(jù)迭代;專項(xiàng)數(shù)據(jù)經(jīng)過(guò)驗(yàn)證后匯集到集成訓(xùn)練。這樣的組織模式,一方面保證了日日新大模型集成了集團(tuán)各個(gè)研究團(tuán)隊(duì)的努力成果,同時(shí)也讓各個(gè)領(lǐng)域團(tuán)隊(duì)可以有個(gè)貫穿前后階段的視野,實(shí)現(xiàn)整體的提升。
  3. 商湯的大模型數(shù)據(jù)團(tuán)隊(duì)在過(guò)去兩年,也經(jīng)歷了兩次重要的變化。自 2023 年始,我們圍繞大模型的數(shù)據(jù)供給需求,組建了新的數(shù)據(jù)團(tuán)隊(duì),它建設(shè)了商湯的數(shù)據(jù)生產(chǎn)基礎(chǔ)設(shè)施,為商湯模型的訓(xùn)練提供了大量的高質(zhì)量語(yǔ)料。到了 2024 年中,隨著合成數(shù)據(jù)的比重加大,數(shù)據(jù)生產(chǎn)的算法化程度不斷提升,我們?cè)俅沃貥?gòu)了數(shù)據(jù)生產(chǎn)體系,讓算法團(tuán)隊(duì)承擔(dān)數(shù)據(jù)合成的主責(zé),而數(shù)據(jù)基礎(chǔ)設(shè)施團(tuán)隊(duì)主要是維護(hù)和升級(jí)基礎(chǔ)設(shè)施,保障數(shù)據(jù)規(guī)模化生產(chǎn)的效率。
  4. 新建了獨(dú)立于模型研發(fā)團(tuán)隊(duì)的評(píng)測(cè)團(tuán)隊(duì)。它一方面保持對(duì)技術(shù)前沿的關(guān)注,另一方面和產(chǎn)品業(yè)務(wù)團(tuán)隊(duì)緊密配合,把應(yīng)用中面臨的主要問(wèn)題融入評(píng)測(cè)體系。評(píng)測(cè)團(tuán)隊(duì)的核心 KPI 是保證評(píng)測(cè)結(jié)果和用戶體感是一致的,它的報(bào)告會(huì)獨(dú)立遞送給管理層,以保證管理層對(duì)于商湯的技術(shù)進(jìn)展有個(gè)客觀公允的認(rèn)知。在這個(gè)獨(dú)立評(píng)測(cè)體系的牽引下,模型研發(fā)團(tuán)隊(duì)高度關(guān)注模型的真實(shí)表現(xiàn),而不僅是榜單成績(jī),這對(duì)于商湯的模型保持商業(yè)競(jìng)爭(zhēng)力非常重要。
  5. 保持足夠高的迭代效率是在大模型激烈競(jìng)爭(zhēng)中致勝的關(guān)鍵。迭代的效率由兩個(gè)要素共同作用:算力效率和人員效率。為了保證高的迭代效率,商湯組建專責(zé)團(tuán)隊(duì),一方面和大裝置緊密協(xié)同,在為模型訓(xùn)練推理提供高效的計(jì)算支撐的同時(shí),也牽引大裝置的敏捷迭代,讓它真正成為“最懂大模型的基礎(chǔ)設(shè)施”;另一方面,關(guān)注全鏈條的迭代效率,以算法化和工程化方式及時(shí)沉淀和推廣最佳實(shí)踐,推動(dòng)整體迭代效率的持續(xù)提升。在這些團(tuán)隊(duì)的努力下,模型研發(fā)的基建不斷完善,模型訓(xùn)練的自動(dòng)化程度在不斷提升。

  總體而言,商湯的研究團(tuán)隊(duì)在 AI 技術(shù)快速演進(jìn)的時(shí)代浪潮下,組織體系也在與時(shí)俱進(jìn),不斷重塑自我,始終以最佳的隊(duì)形應(yīng)對(duì)激烈的競(jìng)爭(zhēng);在持續(xù)提升研發(fā)效率的同時(shí),保持著堅(jiān)持原創(chuàng)的初心。

  10、商湯如何平衡技術(shù)突破和商業(yè)落地的關(guān)系?

  主要觀點(diǎn)

  • 通向 AGI 的道路是一場(chǎng)長(zhǎng)跑,技術(shù)理想也需要商業(yè)價(jià)值的護(hù)航才能行穩(wěn)致遠(yuǎn)。
  • 商湯沒(méi)有把技術(shù)和商業(yè)視為爭(zhēng)奪資源的兩側(cè),而是把它們視為互為因果的兩個(gè)環(huán)節(jié),關(guān)注它們的正向循環(huán)。
  • 在研發(fā)投入上最核心的問(wèn)題是最好“科技樹(shù)”上的選擇題。
  • 研發(fā)和商業(yè)的正向循環(huán),不只是一句口號(hào),而是貫徹于組織、項(xiàng)目和考核等各個(gè)層面的理念。
  • 長(zhǎng)期主義帶來(lái)的復(fù)利,將讓我們?cè)谧约旱牡缆飞厦摲f而出,形成堅(jiān)實(shí)的競(jìng)爭(zhēng)優(yōu)勢(shì)。

  這一波大模型浪潮重塑了全世界對(duì)于人工智能的認(rèn)知。新技術(shù)、新產(chǎn)品令人目不暇接,“未來(lái)已來(lái)”是很多人最直觀的感受。繁華和喧囂的背后,我們始終保持著一個(gè)重要的判斷:

  通向 AGI 的過(guò)程是一場(chǎng)長(zhǎng)跑

  通向通用人工智能(AGI)的過(guò)程是一場(chǎng)長(zhǎng)跑,不是一蹴而就的沖刺。 當(dāng)靜下心來(lái)去審視人工智能這兩年多以來(lái)的進(jìn)展,我們會(huì)看到有很多基本挑戰(zhàn)尚未能得到解決:

  • 大模型在獲得奧賽金牌的同時(shí),在很多業(yè)務(wù)場(chǎng)景中的表現(xiàn)仍然不夠可靠;
  • 大模型工作機(jī)理尚未被充分認(rèn)識(shí),我們還缺乏可靠的方法論保證模型的行為遵循人類的期待;
  • 大模型對(duì)于三維空間以及物理規(guī)律的掌握還處在較早期的階段;
  • 由于專業(yè)數(shù)據(jù)的壁壘,大模型向高價(jià)值行業(yè)落地還面臨重要挑戰(zhàn);
  • 大模型的工作還是以現(xiàn)有知識(shí)和能力的深度重組為主,如何讓它創(chuàng)造新的知識(shí)目前還是開(kāi)放問(wèn)題;
  • 大模型的計(jì)算效率和人腦相比還存在巨大差距(人腦的平均功率只有 20 瓦,卻能敏捷處理復(fù)雜的多模態(tài)信號(hào))。

  這些問(wèn)題的解決還需要較長(zhǎng)的時(shí)間。AlphaGo 是人工智能歷史上一次里程碑式的進(jìn)步,大模型也是,但是,以目前所取得的進(jìn)展而言,宣稱“AGI 的到來(lái)” 似乎還為時(shí)尚早。

  商湯始終堅(jiān)定地走在追尋 AGI 的道路上,但是技術(shù)理想也需要商業(yè)價(jià)值的護(hù)航才能行穩(wěn)致遠(yuǎn)。

  技術(shù)突破和商業(yè)落地的正向循環(huán)

  在實(shí)際工作中,如何才能實(shí)現(xiàn)技術(shù)突破和商業(yè)落地的平衡?這是這個(gè)領(lǐng)域每個(gè)公司都會(huì)面臨的核心問(wèn)題。在商湯,我們沒(méi)有把技術(shù)和商業(yè)視為爭(zhēng)奪資源的兩側(cè),而是把它們視為互為因果的兩個(gè)環(huán)節(jié)。相比于資源的分配,我們更關(guān)注這兩者如何實(shí)現(xiàn)有效的正向循環(huán)。

  基于這樣的認(rèn)知,我們確立了“基礎(chǔ)設(shè)施 - 模型 - 應(yīng)用”三位一體的總體戰(zhàn)略。一方面,我們?cè)诖笱b置基礎(chǔ)設(shè)施支撐下,致力于打造業(yè)界領(lǐng)先的通用多模態(tài)大模型,融匯跨模態(tài)跨領(lǐng)域的數(shù)據(jù),通過(guò)持續(xù)的技術(shù)創(chuàng)新,在感知、理解、推理、交互等能力維度上不斷突破;另一方面,我們?cè)趹?yīng)用上聚焦生產(chǎn)力和交互,在真實(shí)場(chǎng)景牽引下,構(gòu)建端到端的產(chǎn)品技術(shù)競(jìng)爭(zhēng)力。

  到了具體研發(fā)決策的層面,我們確實(shí)面對(duì)很多開(kāi)放性的挑戰(zhàn),技術(shù)上可以投入的事項(xiàng)非常多,但是資源和時(shí)間都是有限的。因此,我們?cè)谘邪l(fā)投入上最核心的問(wèn)題是“科技樹(shù)”上的選擇題。具體而言,我們?cè)谶x擇投入做什么研發(fā)的時(shí)候,會(huì)考慮三個(gè)基本問(wèn)題:1)它是否順應(yīng)技術(shù)發(fā)展的總體趨勢(shì)(是否走向融合而不是更深的定制);2)它是否可以增強(qiáng)商湯所聚焦方向的競(jìng)爭(zhēng)力;3)它是否是在我們經(jīng)過(guò)努力可以達(dá)成的。對(duì)于這些問(wèn)題的回答是技術(shù)和商業(yè)判斷凝聚的結(jié)果。在商湯,每個(gè)研發(fā)周期前都會(huì)有產(chǎn)研會(huì)商的研討會(huì)議,共同確定下一階段的投入方向以及目標(biāo)。我們密切觀察外部的進(jìn)展,但是我們有我們自己的定位和節(jié)奏,不會(huì)受外界過(guò)多的干擾。

  在商湯,研發(fā)和商業(yè)的正向循環(huán),不只是一句口號(hào),而是貫徹于組織、項(xiàng)目和考核等各個(gè)層面的理念。 值得強(qiáng)調(diào)的是,業(yè)務(wù)對(duì)于研究的引導(dǎo),并不是要讓研究人員去圍繞特定需求做定制,而是從中抽象出關(guān)鍵的課題,融入每一個(gè)階段的研發(fā)規(guī)劃,從而為產(chǎn)品構(gòu)筑長(zhǎng)期競(jìng)爭(zhēng)力。

  在三位一體戰(zhàn)略和技術(shù)與業(yè)務(wù)正向循環(huán)的驅(qū)動(dòng)下,我們過(guò)去一年取得了很多進(jìn)展。一方面,我們的基礎(chǔ)技術(shù)體系形成了更強(qiáng)的創(chuàng)新勢(shì)頭,在業(yè)內(nèi)率先取得一系列創(chuàng)新成果:比如原生融合訓(xùn)練,圖文交錯(cuò)思維鏈、多模態(tài)融合強(qiáng)化學(xué)習(xí)、無(wú)限時(shí)長(zhǎng)的視頻交互記憶、以及開(kāi)悟世界模型;另一方面,在技術(shù)創(chuàng)新的支撐下,商業(yè)化局面正在迅速打開(kāi),生產(chǎn)力 AI 的性能持續(xù)保持領(lǐng)先,裝機(jī)量正在從百萬(wàn)量級(jí)走向千萬(wàn)量級(jí);交互 AI 廣泛落地各種新型智能硬件和機(jī)器人,正在重塑用戶和世界交互的形態(tài)。商湯在生成式 AI 板塊業(yè)績(jī)的持續(xù)高速成長(zhǎng)充分顯示了這些成果所帶來(lái)的商業(yè)回報(bào)。

  面對(duì)大廠的競(jìng)爭(zhēng),商湯在資源投入的總量上是有一個(gè)限度的。但是,我們對(duì)于未來(lái)的路徑有自主的思考和認(rèn)知,在戰(zhàn)略上高度聚焦,長(zhǎng)期堅(jiān)持,在技術(shù)路徑和產(chǎn)品業(yè)務(wù)上鼓勵(lì)創(chuàng)新,敏捷迭代,逐漸建立起技術(shù)-商業(yè)的閉環(huán)。

  這種長(zhǎng)期主義帶來(lái)的復(fù)利,將讓我們?cè)谧约旱牡缆飞厦摲f而出,形成堅(jiān)實(shí)的競(jìng)爭(zhēng)優(yōu)勢(shì)。

海量資訊、精準(zhǔn)解讀,盡在新浪財(cái)經(jīng)APP

責(zé)任編輯:何俊熹

(責(zé)任編輯:百科)

相關(guān)內(nèi)容
  • 遠(yuǎn)不止香港42萬(wàn),LV全球多地客戶數(shù)據(jù)泄露
  • 歐羅巴周四焦點(diǎn)戰(zhàn):布蘭VS赫根戰(zhàn)術(shù)博弈與比分前瞻
  • 寧波隊(duì)出征浙BA,鎮(zhèn)海三將攜手捍衛(wèi)城市榮耀!
  • 隨著男單丟冠后,王勵(lì)勤極有可能做出3大改變,國(guó)乒這次真急了
  • 上海海港最丟人!亞冠附加賽中超與泰超連續(xù)三年對(duì)決,浙魯川全勝
  • 2K新秀能力值出爐,狀元弗拉格82分,楊瀚森未能進(jìn)入前10
  • 凄涼,前中超最佳主帥無(wú)人問(wèn)津,在歐洲混不下去,想再回亞洲執(zhí)教
  • 伊朗21分大逆轉(zhuǎn)!郭士強(qiáng)需警惕,中國(guó)男籃今晚戰(zhàn)韓國(guó)或爆冷?
推薦內(nèi)容
  • 王牌主場(chǎng)表現(xiàn)強(qiáng)勁,自由人背靠背作戰(zhàn)狀態(tài)不佳
  • 弗蘭克賽前發(fā)布會(huì)全記錄:沖擊歐超杯冠軍,羅梅羅成為關(guān)鍵人物
  • 中國(guó)斯諾克強(qiáng)勢(shì)崛起!趙心童、丁俊暉領(lǐng)銜四將成功晉級(jí)
  • 八強(qiáng)戰(zhàn)韓國(guó)!郭士強(qiáng)若不想被爆冷,需棄用余嘉豪重用一人
  • 布蘭VS赫根賽事預(yù)測(cè)
  • 烏德勒支 vs 塞爾維特:歐聯(lián)杯精彩對(duì)決!
石家庄市| 特克斯县| 会同县| 宜黄县| 游戏| 平定县| 牟定县| 甘德县| 甘孜县| 通海县| 乃东县| 临桂县| 红原县| 栖霞市| 安阳市| 壶关县| 弥勒县| 临清市| 五家渠市| 霍邱县| 玛曲县| 南木林县| 张家港市| 中宁县| 通州区| 沁水县| 穆棱市| 镇江市| 衡南县| 东安县| 淮北市| 东光县| 青海省| 肥东县| 疏附县| 临澧县| 五大连池市| 宁陕县| 曲阳县| 宁化县| 承德县|