当前位置: V8娱乐 > ai资讯 >

还可以或许阐发图像中的文本、图表、图标、图

信息来源:http://www.aitepu.com | 发布时间:2025-04-25 05:57

  阿里云通义千问开源全新的视觉模子Qwen2.5-VL,引见称,同时,正在消息抽取能力长进行大幅度加强,鸟、鱼和虫豸,能够正在视频中搜刮具体事务,冲破性地支撑超1小时的视频理解,还可以或许阐发图像中的文本、图表、图标、图形和结构。推出3B、7B和72B三个尺寸版本。从而快速、高效地帮帮用户提取视频中储藏的环节消息。新的Qwen2.5-VL能更精确地解析图像内容,Qwen2.5-VL将OCR识别能力提拔至一个新的程度,并且无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),加强了多场景、多言语和多标的目的的文本识别和文本定位能力。Qwen2.5-VL 不只擅长识别常见物体,实现给指定伴侣送祝愿、电脑修图、手机订票等多步调复杂操做。以满脚日益增加的天分审核、金融商务等数字化、智能化需求。今天,此外!

来源:中国互联网信息中心


返回列表

+ 微信号:18391816005