面壁露卡：主打图片理解的大语言模型

在大模型成为标配的今天，如何找到自己的特色，成为每个模型需要考虑的首要问题。

Aug 28, 2023

知乎大模型

面壁露卡：主打图片理解的大语言模型

TABLE OF CONTENTS

Luca 的名字由来

主打图片理解的大模型

理解图片能力的未来泛化猜想

8月28日下午，面壁智能基于千亿基座模型驱动的多模态智能对话助手 Luca 2.0 正式开启公测。

Luca 的名字由来

Luca 的名字取自地球生命始祖 LUCA（The Last Universal Common Ancestor），Luca 1.0 版本最早于 5月27日在 2023 数博会上首次亮相，三个月来，Luca 总共迭代了 85 次，大语言模型能力整体提升 39%。其中推理能力提升 119%，推理、知识、生成等多项能力媲美 ChatGPT 。

除了优秀的大语言模型能力外，Luca 2.0 还具备强大的多模态处理能力，图片理解能力已达中文全网最强，其中多模对话、细节描述和复杂推理三项整体得分为 92.5 分，而行业其他模型的平均得分是 78.4 分，远超现有支持中文且具备图片理解能力的大模型，目前 Luca 2.0 版本已经开启全民公测申请。

notion image

在 Luca 的应用场景展示环节，按照从人类生命周期、追求真善美、降本提效等多个角度人长大成才的时间顺序，举例展现了“Luca 赋能人的成长和生活”的四个场景。

notion image

notion image

notion image

notion image

通过群体智能技术，Luca 可以和它的大模型同事们群体协作，在 7 分钟内为提出需求的用户制作出了 flappy Bird 小游戏。群体智能让创造力触手可及，在面壁的设想里，未来一个人开一家公司不是梦想。

notion image

主打图片理解的大模型

我简单上手体验了一下，给他发了一张图，然后问了他几个问题：

notion image

从回答上看，他对图片的理解还是到位的，他会把所有的答案跟你发给他的图片做结合，所以看起来最适合的场景是做深入解读，不完全是个助手类模型。后续又问了几个问题，答案过于离谱就不放截图了，大家有兴趣的自行尝试一下。

从对话的结果和官方强调的核心技术来看，面壁希望在大模型这个领域里通过差异化找到自己的独特定位，所以从图片这个维度去入手。

未来模型能力变成更加具象的能力之后，有单一特点或许是能得到用户的认可，但实际的体验和场景的交付，可能还需要找到更准确的用户定位和需求。

理解图片能力的未来泛化猜想

面壁智能发布的以图片理解为特色的大模型，能够打开无数新的应用可能性，比如自动驾驶、医疗影像分析、搜索引擎优化等领域。

首先，大模型能够更准确地识别图片中的信息，这对于许多领域都是至关重要的。举例来说，在医疗领域，精准的图像识别可以帮助医生提前发现并诊断出疾病。在自动驾驶领域，准确的图像识别是保证安全驾驶的重要环节。图像识别技术的提升，可使车辆更好地理解周围环境，避免发生事故。

其次，大模型所能处理的图片数量和质量同样重要。在搜索引擎优化领域，这意味着可以利用大模型处理的大量数据，更准确地理解用户的搜索需求，进而提供更相关的搜索结果。

另外我想到的一个场景是，如果大模型能够理解图片，很多有视觉障碍或者盲人用户，就能通过大模型的能力去看这个世界，也许会有更多不一样的精彩。

文心一言开放：百度的一大步，公众的一小步天工搜索，大模型时代的搜索拉开帷幕

lessismore