Официальный сайт сервиса
MiniGPT-4 - это инструмент, который улучшает понимание визуально-языковых данных, объединяя замороженный визуальный энкодер с замороженной большой языковой моделью (LLM), используя всего один слой проекции. Этот инструмент способен генерировать подробные описания изображений, создавать сайты на основе рукописных черновиков, писать истории и стихи, вдохновленные определенными изображениями, решать задачи, показанные на изображениях, и обучать пользователей готовить блюда на основе фотографий еды. MiniGPT-4 является высоко вычислительно эффективным, поскольку требует обучения только линейного слоя для выравнивания визуальных характеристик с Vicuna приблизительно из пяти миллионов выровненных пар изображений и текста.