面壁露卡:主打图片理解的大语言模型

在大模型成为标配的今天,如何找到自己的特色,成为每个模型需要考虑的首要问题。

Aug 28, 2023
8月28日下午,面壁智能基于千亿基座模型驱动的多模态智能对话助手 Luca 2.0 正式开启公测。

Luca 的名字由来

Luca 的名字取自地球生命始祖 LUCA(The Last Universal Common Ancestor),Luca 1.0 版本最早于 5月27日在 2023 数博会上首次亮相,三个月来,Luca 总共迭代了 85 次,大语言模型能力整体提升 39%。其中推理能力提升 119%,推理、知识、生成等多项能力媲美 ChatGPT 。
除了优秀的大语言模型能力外,Luca 2.0 还具备强大的多模态处理能力,图片理解能力已达中文全网最强,其中多模对话、细节描述和复杂推理三项整体得分为 92.5 分,而行业其他模型的平均得分是 78.4 分,远超现有支持中文且具备图片理解能力的大模型,目前 Luca 2.0 版本已经开启全民公测申请。
 
notion image
 
在 Luca 的应用场景展示环节,按照从人类生命周期、追求真善美、降本提效等多个角度人长大成才的时间顺序,举例展现了“Luca 赋能人的成长和生活”的四个场景。
notion image
notion image
notion image
notion image
 
通过群体智能技术,Luca 可以和它的大模型同事们群体协作,在 7 分钟内为提出需求的用户制作出了 flappy Bird 小游戏。群体智能让创造力触手可及,在面壁的设想里,未来一个人开一家公司不是梦想。
 
notion image
 

主打图片理解的大模型

我简单上手体验了一下,给他发了一张图,然后问了他几个问题:
 
notion image
 
从回答上看,他对图片的理解还是到位的,他会把所有的答案跟你发给他的图片做结合,所以看起来最适合的场景是做深入解读,不完全是个助手类模型。后续又问了几个问题,答案过于离谱就不放截图了,大家有兴趣的自行尝试一下。
从对话的结果和官方强调的核心技术来看,面壁希望在大模型这个领域里通过差异化找到自己的独特定位,所以从图片这个维度去入手。
未来模型能力变成更加具象的能力之后,有单一特点或许是能得到用户的认可,但实际的体验和场景的交付,可能还需要找到更准确的用户定位和需求。

理解图片能力的未来泛化猜想

面壁智能发布的以图片理解为特色的大模型,能够打开无数新的应用可能性,比如自动驾驶、医疗影像分析、搜索引擎优化等领域。
首先,大模型能够更准确地识别图片中的信息,这对于许多领域都是至关重要的。举例来说,在医疗领域,精准的图像识别可以帮助医生提前发现并诊断出疾病。在自动驾驶领域,准确的图像识别是保证安全驾驶的重要环节。图像识别技术的提升,可使车辆更好地理解周围环境,避免发生事故。
其次,大模型所能处理的图片数量和质量同样重要。在搜索引擎优化领域,这意味着可以利用大模型处理的大量数据,更准确地理解用户的搜索需求,进而提供更相关的搜索结果。
另外我想到的一个场景是,如果大模型能够理解图片,很多有视觉障碍或者盲人用户,就能通过大模型的能力去看这个世界,也许会有更多不一样的精彩。