
根据小米技术,Home 7月8日新闻宣布了国际计算机视觉会议的ICCV 2025纸招募结果。已经成功选择了两篇小米论文,并获得了创新的研究结果:Q框架是Big Model的视频理解的基本技术,它推出了第一个动态的行业框架和解决方案的动态选择,适合实现插件的情节;连续的研究框架分析子空间路线(Any-SSR)成功地解决了正在进行的研究领域中大型语言模型的主要“灾难”。据报道,国际计算机视觉ICCV会议,计算机愿景和模式认可CVPR国际会议和欧洲计算机视觉ECCV会议被称为Computer Science领域的三个世界领先的学术会议,每两年举行一次。其中,ICCV在2025年贡献了11,239篇文章,接收率为24%。以上两篇论文代表了在大型模型中对小米AI团队进行探索的最新结果。其中,理解大型Q框架模型视频的主要技术是由小米AI团队完全开发的,研究的大型研究模型由小米AI和南中国中国技术团队研究任何SSR。对于大型模型的视频理解(视频-LLMS)的视频理解的绝对自我开发的基本技术,小米AI团队推出了一个完整的自我开发的Q框架的主要技术,以响应传统的“统一框架样本”方法ng处理,例如,盲目的示例和浪费了QUREMES。视频插件的意识和多分辨率改编”。这也是第一个算法的图,可以是插件在没有培训的情况下,对市场中大型模型的各种理解。 MLVU评估集中的跨模式检索(CQR)查询框架选择(QFS)多分辨率适应(MRA),Q-Frame将对准确的QWEN2-VL的理解从55.5%提高到65.4%;在LongVideObench中,GPT-4O53.3%的准确性来自58.6%。此外,其自适应多分辨率属性可能会根据内容和查询要求的重要性来调整框架分辨率,以防止浪费计算强度。通过动态选择框架意识的查询和多分辨率适应,Q框架还可以有效解决三个主要问题:耗时的信息损失,盲目采样而不了解问题,以及“统一框架帧采样”策略下的计算浪费的大小大小。与传统的框架统一和统一处理技术不同,在有限的计算资源下,Q框架可以使模型能够更好地了解视频。此外,Q框架是插件播放,并且与市场上可用的所有类型的视频理解模型,无论是开放资源模型还是封闭的资源模型,无需进一步的培训还是精细的模型调整。以vila-v1.5和qwen2-vl等开放资源模型为示例,包括q框架,这些模型在视频理解活动中的性能得到了显着改善。同样,对于封闭源GPT-4O模型,Q框架也显示出很大的兼容性,这进一步显示了其广泛的可用性。 Q框架在“人类,汽车和家庭中的整个生态环境”的方法中具有不同的应用程序方案,目前正在继续探索和实施:在小米Yu7发行中提到的哨兵模式下,它可以识别出普通的运动和危险行为,这些行为和危险行为可能引起划痕和碰撞;在聪明的ho中我,它将在跟踪屏幕上找到最批判的图片,以帮助用户回答问题;您可以回答视频并开始播放等。在此问题中,其结果是“分析子空间路线:递归如何至少与持续研究大型语言模型的持续研究合作”,已成功为ICCV 2025选择了。作为行业中第一个技术框架,将最小二乘(RLS(RLS)(RLS)引入大型语言模型的第一个技术框架。通过评估路由机制,各种活动被动态地分配给对子空间的独立研究,避免了任务之间知识的破坏,并创新解决了通过不断研究大语言模型而忘记的遗忘问题。同时,通过使用低级别适应性(LORA)和分析路线,无缝集成和新知识的动态的组合。基于一系列创新技术,Y-SSR方法已经实现了“几乎完美”的知识维护(即,不被遗忘),而无缝研究了新知识。在实验中,任何SSR的性能都比其他痕量基准程序(包括多任务(MTL)研究(MTL))更好,并且不仅在一般性能(OP)中获得了其余结果,而且还实现了零反向对话转移(BWT)。小米技术表示,在过去的五年中,小米集团在研发中投资了近1002亿元人民币,2025年的R&D投资中将近四分之一的300亿元人民币将用于与AI相关的方向。