Overview
Создание подписей к изображениям с помощью аудио стало сложной, но перспективной задачей в области глубокого обучения. В данной работе предлагается новый подход к решению этой задачи путем объединения конволюционных нейронных сетей (CNN) для извлечения признаков изображения и рекуррентных нейронных сетей (RNN) для последовательного анализа аудио. В частности, мы используем предварительно обученные CNN, такие как VGG, для извлечения визуальных признаков из изображений и используем представления спектрограмм в сочетании с RNN, такими как LSTM или GRU, для обработки аудиовходов. Предлагаемая нами модель основывается не только на визуальном содержании изображений, но и на сопутствующих аудиосигналах. Мы оцениваем производительность нашей модели на эталонных наборах данных и демонстрируем ее эффективность в генерации связных и контекстуально релевантных подписей к изображениям с соответствующими аудиовходами. Кроме того, мы проводим анализ вклада каждой модальности в общую производительнос
This item is Non-Returnable
Customers Also Bought
Details
- ISBN-13: 9786207661022
- ISBN-10: 6207661028
- Publisher: Sciencia Scripts
- Publish Date: June 2024
- Dimensions: 9 x 6 x 0.15 inches
- Shipping Weight: 0.23 pounds
- Page Count: 64
Related Categories
