2026年4月21日,自變量機(jī)器人同時(shí)釋放資本與技術(shù)兩張關(guān)鍵籌碼:一方面宣布完成B輪融資,由小米戰(zhàn)投領(lǐng)投;另一方面發(fā)布具身智能基礎(chǔ)模型WALL-B,并同步推出“機(jī)器人進(jìn)家庭”的下一階段計(jì)劃。目前自變量B輪融資的具體金額尚未正式披露,目前處于股東交割階段,近期將進(jìn)一步對(duì)外公布融資情況。
隨著小米入局,自變量成為國(guó)內(nèi)唯一一家同時(shí)獲得字節(jié)跳動(dòng)、美團(tuán)、阿里巴巴以及小米四家互聯(lián)網(wǎng)大廠投資的具身智能公司。對(duì)于為何能夠持續(xù)吸引頭部投資者入局,自變量CEO王潛將原因歸結(jié)為技術(shù)本身,“就是投技術(shù)的絕對(duì)領(lǐng)先性”。 在他看來,這些投資方本身具備成熟的大模型研發(fā)能力與技術(shù)判斷力,更關(guān)注長(zhǎng)期技術(shù)壁壘的構(gòu)建,而非短期回報(bào)。
王潛同時(shí)指出,盡管多家股東本身也在布局具身智能,但這并不影響其對(duì)自變量的投資決策?!耙环矫?,這個(gè)市場(chǎng)足夠大;另一方面,創(chuàng)業(yè)公司在一些關(guān)鍵能力上具備大廠難以復(fù)制的優(yōu)勢(shì)?!痹谒磥恚浻布惑w化能力是其中的重要競(jìng)爭(zhēng)力之一。此外,資源投入并不必然轉(zhuǎn)化為技術(shù)領(lǐng)先。“技術(shù)本身仍然是一個(gè)很高的門檻?!蓖鯘摫硎尽?/p>
從發(fā)展路徑來看,大廠押注的自變量,從成立之初便聚焦于為機(jī)器人構(gòu)建“大腦”。其核心是構(gòu)建端到端的具身智能基礎(chǔ)模型,并能夠直接控制動(dòng)作,同時(shí)在應(yīng)用端嘗試把機(jī)器人真正送進(jìn)了家庭。“機(jī)器人進(jìn)入家庭,是我們這個(gè)時(shí)代最難的技術(shù)問題之一?!蓖鯘摫硎?,舞臺(tái)上的后空翻、跳街舞、寫毛筆字等機(jī)器人演示雖然視覺沖擊力強(qiáng),但這些動(dòng)作本質(zhì)是預(yù)設(shè)軌跡的“命令行機(jī)器人”,每一個(gè)動(dòng)作都經(jīng)過預(yù)先編程或遙控操作。工廠中已經(jīng)部署的工業(yè)機(jī)器人同樣不構(gòu)成可比案例:工廠環(huán)境下,一個(gè)動(dòng)作可以重復(fù)一萬次且每次條件相同;而在家庭中,一萬個(gè)動(dòng)作每個(gè)可能只做一次,每次的環(huán)境條件都不一樣。
在他看來,當(dāng)前行業(yè)的分化也由此產(chǎn)生?!艾F(xiàn)在的機(jī)器人其實(shí)硬件到位了,雙足、靈巧手、臂控關(guān)節(jié),都很好,也非常不容易,但是大腦沒有跟上,它們都只是空有一身漂亮的肌肉而已?!薄跋衽荞R拉松的機(jī)器人,基本都是在‘腿’這個(gè)硬件能力上做文章,本質(zhì)上更偏硬件問題。”王潛認(rèn)為,硬件本身在國(guó)內(nèi)并不構(gòu)成長(zhǎng)期壁壘,“今天做出一個(gè)很好的硬件,明天供應(yīng)鏈就能跟上,后天大家都可以做一模一樣的事情”。
因此,他將兩類路線明確區(qū)分開來:“馬拉松的機(jī)器人和我們實(shí)際上是兩個(gè)領(lǐng)域,兩個(gè)完全不同的行業(yè)?!痹谒磥?,相比之下,自變量所做的具身智能基礎(chǔ)模型,“可能和做語言模型的公司更接近一些”。“我們做的本質(zhì)上是一個(gè)基礎(chǔ)模型的事情?!蓖鯘撜J(rèn)為,基礎(chǔ)模型的壁壘顯著更高。
2024年底,自變量發(fā)布基于 VLA(視覺-語言-動(dòng)作)架構(gòu)的第一代具身基礎(chǔ)模型 WALL-A,2025年9月,將同樣思路架構(gòu)下的輕量化模型版本W(wǎng)ALL-OSS開源。在應(yīng)用端,自變量還與58同城合作,將機(jī)器人引入家庭清潔場(chǎng)景,參與上門保潔等實(shí)際作業(yè)。運(yùn)行于該項(xiàng)目中的WALL-AS(WALL-A迭代版本),為公司帶來了大量真實(shí)家庭環(huán)境數(shù)據(jù),也進(jìn)一步暴露出VLA架構(gòu)在復(fù)雜場(chǎng)景中的能力邊界。
在此基礎(chǔ)上,自變量對(duì)原有技術(shù)路徑進(jìn)行升級(jí),推出新一代具身智能基礎(chǔ)模型WALL-B。WALL-B真正區(qū)別于行業(yè)其他方案的核心,是采用WUM的架構(gòu)。WUM是將視覺、語言、動(dòng)作、物理預(yù)測(cè)等能力,放在同一個(gè)網(wǎng)絡(luò)中從零開始聯(lián)合訓(xùn)練、融為一體,消除模塊間的邊界和數(shù)據(jù)搬運(yùn)損耗。而與WUM相比,VLA就類似于M1之前的筆記本電腦架構(gòu)——視覺模塊、語言模塊、動(dòng)作模塊各自為政,數(shù)據(jù)在模塊之間搬來搬去,每搬一次就丟一次信息。視覺學(xué)到的豐富信息,傳到動(dòng)作模塊時(shí)只剩一個(gè)模糊的摘要。
自變量CTO王昊將其類比為Apple Silicon的統(tǒng)一內(nèi)存架構(gòu)。在蘋果M1芯片之前的Mac上,CPU、GPU、內(nèi)存各自獨(dú)立,數(shù)據(jù)搬運(yùn)產(chǎn)生的延遲和損耗成為性能瓶頸;蘋果通過統(tǒng)一內(nèi)存架構(gòu)讓所有處理單元共享同一塊內(nèi)存,性能由此大幅提升。
基于WUM架構(gòu),WALL-B在技術(shù)上呈現(xiàn)出三項(xiàng)區(qū)別于現(xiàn)有模型的特征。
一是原生多模態(tài)能力。WALL-B從訓(xùn)練初期即對(duì)視覺、聽覺、語言、觸覺、動(dòng)作等多模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,實(shí)現(xiàn)“多模態(tài)進(jìn)、多模態(tài)出”。在此基礎(chǔ)上,模型具備一定的“本體感”,能夠在不依賴外部傳感器的情況下,對(duì)自身尺寸及動(dòng)作范圍形成內(nèi)在感知,用于判斷空間通過性及觸達(dá)能力。二是對(duì)物理規(guī)律的建模能力。WALL-B可對(duì)重力、慣性、摩擦力等基本物理因素進(jìn)行感知與預(yù)測(cè)。在未見過的場(chǎng)景中,模型可基于上述規(guī)律進(jìn)行推斷,例如判斷物體可能掉落,并采取相應(yīng)動(dòng)作。三是交互中的自適應(yīng)能力。與現(xiàn)有模型在任務(wù)失敗后停止執(zhí)行不同,WALL-B在失敗后可調(diào)整策略再次嘗試,并在成功后對(duì)結(jié)果進(jìn)行反饋更新?!暗靡嬗谶@種世界統(tǒng)一模型架構(gòu),Wall—B還克服了Transformer架構(gòu)難以長(zhǎng)期記憶內(nèi)化的問題,所有經(jīng)驗(yàn)以原生多模態(tài)記憶的方式,通過類似人腦記憶的機(jī)制實(shí)現(xiàn)自我更新。”王昊說。
值得注意的是,近期,“機(jī)器人馬拉松”引發(fā)行業(yè)關(guān)注。不少業(yè)內(nèi)人士認(rèn)為,本體側(cè)的領(lǐng)先窗口正在明顯收窄,尤其是在具備系統(tǒng)化能力的大廠入場(chǎng)后,部分優(yōu)勢(shì)甚至可能僅維持?jǐn)?shù)月。這一定程度上放大了行業(yè)對(duì)不同技術(shù)路徑的討論。在這種背景下,自變量如何保證“大腦”能力的領(lǐng)先以及能力領(lǐng)先的窗口期又能有多久,成為外界關(guān)注的又一焦點(diǎn)。對(duì)于領(lǐng)先周期,王潛以大模型行業(yè)為參照稱,“類似OpenAI領(lǐng)先Google兩年的情況,在機(jī)器人領(lǐng)域,這一窗口可能更長(zhǎng)”,預(yù)計(jì)可達(dá)到三年以上。
王潛提到,數(shù)據(jù)是關(guān)鍵點(diǎn),同時(shí)還取決于軟硬件一體化能力及完整閉環(huán)體系的構(gòu)建?!拔覀円严到y(tǒng)拉通,建立一個(gè)真正統(tǒng)一的閉環(huán),這才是更長(zhǎng)期的競(jìng)爭(zhēng)力?!彼€指出,模型架構(gòu)本身并非核心壁壘,“模型的架構(gòu)很容易抄,每半年的時(shí)間大家就知道上一代模型架構(gòu)的設(shè)計(jì)”。相比之下,更難復(fù)制的是圍繞數(shù)據(jù)及其背后的整套工程體系,包括從數(shù)據(jù)定義、采集、處理,到訓(xùn)練、評(píng)測(cè)及反饋優(yōu)化的完整流程。
而自變量WALL-B的核心數(shù)據(jù),來自真實(shí)家庭場(chǎng)景。為了獲取這類數(shù)據(jù),自變量進(jìn)入了超過100個(gè)真實(shí)家庭里去訓(xùn)練,獲取非標(biāo)準(zhǔn)化場(chǎng)景下的一手?jǐn)?shù)據(jù)?!皵?shù)據(jù)才是這個(gè)行業(yè)最大的秘密”,王昊說,家庭環(huán)境中的日常,比如有的家庭地面散落著拖鞋、快遞箱和玩具,有的家庭中貓會(huì)突然跳上桌子,這些是模型必須學(xué)會(huì)應(yīng)對(duì)的真實(shí)條件。
自變量的數(shù)據(jù)策略分為兩層:實(shí)驗(yàn)室數(shù)據(jù)用于建立基礎(chǔ)能力,真實(shí)家庭數(shù)據(jù)用于提升模型在復(fù)雜環(huán)境中的適應(yīng)能力。其目標(biāo)是讓機(jī)器人在不同家庭場(chǎng)景中具備可用性。在商業(yè)化方面,公司計(jì)劃在一個(gè)月后,將搭載WALL-B的新一代機(jī)器人投入首批用戶家庭。王潛表示,目前模型仍處于“實(shí)習(xí)生”階段,執(zhí)行過程中仍會(huì)出錯(cuò),例如將物品放錯(cuò)位置或中途停止。但其能夠?qū)崿F(xiàn) 24 小時(shí)不間斷工作,且每工作一天都會(huì)因新數(shù)據(jù)的產(chǎn)生而變得更“聰明”。