您的位置 首页 通讯

Gemini2.5全系更新,Imagen4、Veo3细节拉满,2025谷歌I/O大会看这篇就够了!

出品 | 搜狐科技作者 | 常博硕编辑 | 杨锦5月21日北京时间凌晨一点,谷歌I/O开发者大会在美国加州山景城海岸线圆形剧场正式召开。在追逐AGI的热潮下,谷歌的每一步都吸引着全世界的目光。

出品 | 搜狐科技

作者 | 常博硕

编辑 | 杨锦

5月21日北京时间凌晨一点,谷歌I/O开发者大会在美国加州山景城海岸线圆形剧场正式召开。在追逐AGI的热潮下,谷歌的每一步都吸引着全世界的目光。

本次大会围绕“从研究到现实”(From research to reality)这一主题,全面展示了谷歌如何将最前沿AI 技术与各类产品和开发者生态深度融合,在此基础上谷歌还发布了一系列重磅技术与产品更新。谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai)在会上表示,“谷歌正在以可感知、可操作、可掌控这三点为原则,致力于让AI更加贴近用户的真实需求。”

Gemini 2.5全面更新

今年3月Gemini 2.5 pro正式发布,此次大会上Gemini2.5有了新的升级。更新后的2.5pro凭借其100万个token上下文窗口,拥有一流的长上下文和视频理解性能,目前2.5pro在WebDev Arena与 LMArena 排行榜中位列第一。

Gemini2.5全系更新,Imagen4、Veo3细节拉满,2025谷歌I/O大会看这篇就够了!

展开全文

2.5 pro还接入了DeepThink推理模式,通过DeepThink 2.5pro能更高效地实现对高度复杂的数学和编码的推理,目前2.5 Pro Deep Think在2025 USAMO上取得了令人印象深刻的成绩,它在LiveCodeBench(一项针对竞赛级编程的难度较高的基准测试)上也取得了领先,并在测试多模态推理的MMMU上获得了 84.0% 的分数。

Gemini2.5全系更新,Imagen4、Veo3细节拉满,2025谷歌I/O大会看这篇就够了!

2.5 Flash则专为速度和低成本而设计,更新后的2.5Flash在推理、多模态、代码和长上下文等关键基准上都得到了改进,同时使用的 token 减少了 20-30%。全新2.5 Flash现在已在Google AI Studio、Vertex AI和Gemini app中提供预览。

除了模型基础能力的更新,Gemini2.5系列还公布了一系列新的功能。

首先是原生音频输出和LiveAPI的改进,LiveAPI推出了音频视频输入和原生音频输出对话的预览版,用户能够使用更自然、更具表现力的Gemini,用户还能定制Gemini的输出语气、口音和说话风格。除此之外,2.5 Pro 和 2.5 Flash 版本还发布了全新的文本转语音功能。

这些功能首次支持多扬声器,能够通过原生音频输出实现双声道文本转语音,支持超过 24 种语言,并可在多种语言之间无缝切换。

谷歌还公布,Project Mariner的计算机使用功能将引入Gemini API和Vertex AI。预计在今年夏天将广泛推广给开发者进行试用。

对于开发人员,谷歌也在增强其体验感。会上,谷歌公布2.5 Pro和Flash将在Gemini API和Vertex AI中包含思维摘要。思维摘要能够将模型的原始想法整理成清晰的格式,其中包含标题、关键细节以及模型操作信息(例如何时使用工具)。同时2.5 Flash将加入了思考预算,旨在通过平衡延迟和质量,让开发者更好地控制成本。

正如谷歌DeepMind CEO Demis Hassabis 所说,“我们将继续在基础研究的广度和深度上加倍投入,致力于发明实现通用人工智能 (AGI) 所必需的下一个重大突破 。正因如此,我们正努力拓展我们最强的多模态基础模型 Gemini 2.5 Pro,使其成为一个能够通过理解和模拟世界的各个方面来制定计划和构想新体验的世界模型,就像大脑一样。”

Gemini应用新体验

1.Imagen4与Veo3重磅推出

Gemini2.5全系更新,Imagen4、Veo3细节拉满,2025谷歌I/O大会看这篇就够了!

继去年12月Imagen3发布后,此次I/O大会上谷歌的文生图AI 模型迎来最新版本Imagen4,视频生成模型更新为Veo3。Google Labs与Gemini副总裁Josh Woodward表示,新一代的Imagen模型速度比上一代快10倍并提供更真实的视觉效果与更好的文本和排版效果。Imagen 4支持多种纵横比与最高2K分辨率,目前已在Gemini app、Whisk、Vertex AI等上线。

Gemini2.5全系更新,Imagen4、Veo3细节拉满,2025谷歌I/O大会看这篇就够了!

而新一代的视频生成模型Veo 3不仅能通过文字提示生成栩栩如生的视频场景,还能生成城市、自然背景音及真实的人物对话。目前Veo 3 已在 Gemini 应用程序中面向Google AI Ultra 订阅用户开放,企业用户可以在Vertex AI平台调用。

2. Gemini live更新

从今天开始,谷歌将免费向安卓和iOS用户提供具有摄像头和屏幕共享功能的Gemini Live。Gemini live将集成地图、日历、任务,并计划连接更多谷歌生态系统,用户只需在聊天中提出请求,便可调用相关应用。

3. 更多元的Gemini体验

伴随着Gemini 2.5的更新,Canvas 现在更加直观强大,用户可以创建交互式信息图表、测验,甚至支持 45 种语言的播客式音频概览同时“vibe coding” 模式能够让非专业人士通过自然对话快速构建应用原型。

Deep Research功能也变得更加个性化,目前用户可上传私有文件并连接 Google Drive、Gmail,自动生成定制化研究报告。

从现在开始,用户将可以在谷歌浏览器中试用Gemini,该功能将首先面向美国用户进行测试。在首发版本中,Gemini将帮助用户实现总结、解释正在浏览的任何网站或页面上的复杂信息,未来Gemini将实现能够在浏览器中跨多个标签页工作并根据用户指令浏览网页。

4. Google AI Pro 和 Google AI Ultra 计划

Gemini2.5全系更新,Imagen4、Veo3细节拉满,2025谷歌I/O大会看这篇就够了!

目前谷歌推出两种订阅服务:Google Al Pro 和 Google Al Ultra。Google Al Pro价格为每月19.99 美元,除了包含之前Gemini Advanced套餐的内容还包括Flow、NotebookLM 等产品。Google AI Ultra目前仅在美国提供,后续将逐步在更多国家/地区推出,每月费用为 249.99 美元,能够享受Google AI的全部服务与产品。

搜索与编码能力升级

1.异步代码助手Jules正式公测

Jules 是一款异步代理式编码助手,可直接与现有的代码库集成并将代码库克隆到安全的 谷歌云虚拟机 (VM) 中,全面了解项目的完整上下文,并执行以编写测试、构建新功能、提供音频更新日志、修复BUG、更改依赖版本等工作。

Jules可以在用户专注于其他任务时在后台运行,完成后会展示其计划、推理过程以及所做更改的差异。Jules不会使用您的私有代码进行训练,用户私有库中的工作将默认保持私密。

目前Jules公测期间将完全免费,待平台成熟后或将引入付费方案。

2.全新的搜索体验

AI Mode是谷歌最强大的 AI 搜索功能,拥有更先进的推理能力和多模态分析能力,能够通过后续问题和实用的网络链接进行更深入的分析。未来几周,用户将在谷歌搜索和 Google 应用的搜索栏中看到新的 AI Mode标签页。

AI Mode的深度搜索模式能自动发起上百次搜索,跨领域整合信息并生成引用详尽的专家级报告,节省大量人工研究时间。同时,AI Mode还支持实时互动搜索,用户只需要对着手机摄像头提问,AI即可给我实时解答和相关链接。

除此之外AI Mode还带来了全新购物体验,用户可以对需要的商品进行价格跟踪,当商品价格下跌时,系统就会自动将商品加入购物车。在购买服装时,AI Mode还提供了虚拟试穿工具,用户只需要上传一张全身自拍,即可在网上试穿各种衣服,该模型还能精准还原各种不同材质的褶皱与垂坠质感。

Android XR与Google Beam将Gemini带入物理世界

Gemini2.5全系更新,Imagen4、Veo3细节拉满,2025谷歌I/O大会看这篇就够了!

十多年来,谷歌一直致力于智能眼镜的概念研发,Android XR 的推出,让谷歌在这个领域又向前迈出了一大步。

在此次大会上,谷歌官宣与Gentle Monster和Warby Parker眼镜品牌合作,共同打造搭载 Android XR 系统的时尚眼镜。这款眼镜配备摄像头、麦克风和扬声器,可与手机协同工作,无需掏口袋即可访问应用程序。眼镜与 Gemini 配对后,能够看到和听到用户的一举一动,从而了解用户处境,记住重要事项。

会上,谷歌向大众展示了 Android XR 眼镜在实际场景中的运作方式,包括向好友发送消息、预约、查询路线、拍照,两人之间的实时语言翻译等功能。

Gemini2.5全系更新,Imagen4、Veo3细节拉满,2025谷歌I/O大会看这篇就够了!

Google Beam是一个全新的 AI 为先的视频通信平台,利用最先进的视频模型,通过一个由六个摄像头组成的阵列并结合 AI 技术,Beam能够将 2D 视频流转换为逼真的 3D 体验,并融合视频流在 3D 光场显示器上呈现用户形象,能够精确到毫米,并能以每秒 60 帧的速度实时呈现。AI视频模型与光场显示技术的结合使用户能够进行眼神交流,观察微妙的表情,建立理解和信任,就像面对面一样。据官方表示,Beam与惠普合作,首批 Google Beam 设备将于今年晚些时候向早期客户发售。

2025年的谷歌I/O大会几乎实现了谷歌目前所有AI的全更新,距离上次开发者大会仅仅一年时间,让人不禁感叹谷歌对于引领当下AI热潮的澎湃激情。

正如谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 在开场演讲中表示“科技拥有着不可思议的力量,它能激励我们、让我们敬畏,并推动我们不断前进。我迫不及待地想看到我们接下来将携手创造的精彩事物。”

本文来自网络,不代表冰河马新闻网立场,转载请注明出处:http://www.wtoor.com/29040.html

作者: wczz1314

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

13000001211

在线咨询: QQ交谈

邮箱: email@wangzhan.com

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部