华科大发布多模态大模型Monkey，团队称能对更大尺寸图片进行描述推理

尚怡达人 2023-12-12 共3543人围观科技证券软件大学 key

12月11日，证券时报记者从华中科技大学获悉，该校软件学院教授白翔领衔的VLRLab团队近日发布了多模态大模型――“Monkey”（意为“猴子”）。该模型能够实现对世界的“观察”，对图片进行精确描述。

多模态大模型是一种可以同时处理和整合多种感知数据（例如文本、图像、音频等）的AI架构，近年来在众多场景中展现了惊人的能力。

VLRLab团队接受证券时报记者采访时表示，Monkey模型在18个数据集上的实验中表现出色，特别是在图像描述和视觉问答任务方面，超越了众多现有知名的模型。Monkey的另一个显著特点是其出色的“看图说话”能力。在详细描述任务中，Monkey展现了对图像细节的感知能力，能够察觉到其他多模态大模型所忽略的内容。

华科大发布多模态大模型Monkey，团队称能对更大尺寸图片进行描述推理

目前，几乎所有多模态大模型都需要运用网上爬取的图文对数据集，这些数据集只能进行简单的图文描述，无法大分辨率图片的需求。据VLRLab团队介绍，Monkey利用现有工具构建了一种多层级的描述生成方法，即通过五个步骤依次对图片进行整体简述、空间定位、模块化识别、描述赋分选取和最终总结，此举可以充分结合不同工具的特性，大幅度提升描述的准确性和丰富程度。

VLRLab团队表示，Monkey的另一亮点是能够处理分辨率高达1344×896像素的图像，这是目前其他多模态大模型所能处理的最大尺寸的6倍。这意味着Monkey能对更大尺寸的图片进行更准确、丰富、细致的描述甚至推理。

目前，业内能处理的图片最大分辨率为448×448像素。而想要进一步提升处理能力，需投入十分高昂的算力成本。该团队成员刘禹良向记者介绍，团队采用 “裁剪”方法，将原始输入图片分割成多个块，每块尺寸小于448×448像素，并为每个块配备了一个“放大镜”，放到合适的位置可以“看”清更多细节。多个“放大镜”同时工作，分别“放大”不同的图片块，就能提取更多局部特征。

从市场表现来看，上周开始，多模态大模型等AI概念再度活跃，多家上市公司发布机构调研。天风证券研报指出，随着ChatGPT升级迭代并具备了多模态能力，以及Gemini展现的原生多模态能力，AI大模型浪潮已进入新阶段，从大语言模型过渡到多模态模型。

上一篇：2023医疗护理员职业技能大赛社会康养机构赛道全国选拔赛举行下一篇：*ST红相(300427):召开2023年第五次临时股东大会的通知