16:14 

Diary Downloader 3.0 pre-alpha

DDD
мне сказали, что ты меня все еще любишь
Товарищи, если кому нетрудно потестировать.

Diary Downloader (скачивание дневников). Программа переписана с нуля, но еще очень много недоделок, которые хотелось бы исправить до того момента, как уже это будет лень.

Основные нововведения:

- Многопоточная загрузка (до 10 потоков), соответственно, беспрецедентная скорость на хорошем канале
- Делается полный парсинг загруженных страниц. Итоговая страница получается путем сборки "с нуля" по шаблону.
- Для скачивания используется pda-версия (экономия трафика)
- По возможности, используется сжатие gzip (экономия трафика)
- Кэшируются изображения
- Возможность докачки

Краткая суть. Программа скачивает заданное количество страниц и парсит их, сохраняя каждый пост и текст под more в отдельный файл (расширения *.post и *.more(N моря) соответственно). Изображения сохраняются в отдельный каталог (поддерживается jpg, gif и png, в т.ч. и со сторонних сайтов). Сss дневника имплантируется в единый шаблон перед сборкой.

Программа: iddd.ru/files/DiaryDownloader_3.0pre-a.zip (105 Кб, zip + vzlib.dll)

Для работы необходим компонент ddd-soft.net.ru/files/mswinsck.zip (79 Кб, instаller)

Спасибо.
запись создана: 18.07.2008 в 15:58

Комментарии
2008-07-18 в 16:08 

Δ
шпиён администрации
То, что ты ищешь, на самом деле у тебя в голове.
ссылку на программу поправьте, плиз:)

2008-07-18 в 16:10 

DDD
мне сказали, что ты меня все еще любишь
Готово. К чему дневники скобки в урле не понимают?

inster
i n s t a l l e r
INSTALLER

2008-07-18 в 16:13 

DDD
мне сказали, что ты меня все еще любишь
Блять. Чем слово "инсталлер"-то не угодило?

2008-07-18 в 16:14 

молодой динамично развивающийся
вырезается зачем-то

2008-07-18 в 16:14 

молодой динамично развивающийся
*all

2008-07-18 в 16:14 

Δ
шпиён администрации
То, что ты ищешь, на самом деле у тебя в голове.
DDD
я раньше не сталкивалась:)

по проге - уже поймала ошибку:)



у меня подозрение, что это из-за того, что у меня на диске Д нету такой папки.)

2008-07-18 в 16:16 

DDD
мне сказали, что ты меня все еще любишь
Глорик каталог надо создавать руками. Пока, по крайней мере. Выбирайте папку кнопочкой справа, на текстбокс с путем надо locked поставить, чтобы руками туда не писали.

С GZIPом на бете проблемы. Ошибка гзип не критична.

2008-07-18 в 16:18 

Δ
шпиён администрации
То, что ты ищешь, на самом деле у тебя в голове.
а, нет...


2008-07-18 в 16:18 

Δ
шпиён администрации
То, что ты ищешь, на самом деле у тебя в голове.
это я в существующю папку)

2008-07-18 в 16:19 

DDD
мне сказали, что ты меня все еще любишь
Глорик доступ запрещен. Нужны полные права на каталог программы и на каталог сохранения. Вы локальный админ на своей машине?

2008-07-18 в 16:21 

Глорик
Δ
шпиён администрации
То, что ты ищешь, на самом деле у тебя в голове.
DDD
конечно.

2008-07-18 в 16:25 

молодой динамично развивающийся
Первый раз здохло от указания количества страниц больше, чем есть в дневнике. #6 Overflow.

Второй — во время полной загрузки дневника на 43% скачивания картинок. #52 Bad file name or number

При загрузке только одной страницы с картинками отключился gzip во время скачивания последних, но программа не упала.

2008-07-18 в 16:27 

молодой динамично развивающийся
По поводу CSS: к путям в url(/userdir/***) надо вставлять в начале static.diary.ru либо скачивать вместе с картинками из записей и переписывать адрес.

2008-07-18 в 16:40 

DDD
мне сказали, что ты меня все еще любишь
Глорик либо открыта какая-нибудь папка, которую программа пытается очистить. В любом случае, что-то с доступом.

Chudd! Первый раз здохло от указания количества страниц больше, чем есть в дневнике.

Потом добавлю определение количества страниц

во время полной загрузки дневника на 43% скачивания картинок. #52 Bad file name or number

Собственного дневника? Сколько страниц для скачивания задано?

При загрузке только одной страницы с картинками отключился gzip во время скачивания последних, но программа не упала.

Картинки в сжатом виде не передаются и гзип отключается. Сжатие работает только на текстовом контенте.

По поводу CSS: к путям в url(/userdir/***) надо вставлять в начале static.diary.ru либо скачивать вместе с картинками из записей и переписывать адрес.

О, спасибо. Надо будет ксс в парсинг на предмет наличия картинок подключить.

2008-07-18 в 16:44 

молодой динамично развивающийся
DDD Собственного дневника? — да, Сколько страниц для скачивания задано? — 31 из 31.

2008-07-18 в 16:47 

DDD
мне сказали, что ты меня все еще любишь
Chudd! нашел, об эту фигню споткнулось: test.bio-met.ru/graf.php?v1=85&v2=84&v3=83&v4=6...

2008-07-18 в 16:52 

молодой динамично развивающийся
кагжэ быть

2008-07-18 в 16:59 

DDD
мне сказали, что ты меня все еще любишь
Chudd! поставил временную затычку, пересобрал, перезалил. Ссылка та же. Стал обладателем всего твоего дневника)

2008-07-18 в 16:59 

молодой динамично развивающийся
м. что-то я не понял, а почему я скачал 31 страницу, а там меньше половины записей? у меня же в настройках указано по 30 постов на странице.

и еще один баг:
more в постах раскрывается нормально, но при схлопывании даблкликом исходный текст-заглушка не появляется снова.

2008-07-18 в 17:06 

DDD
мне сказали, что ты меня все еще любишь
Chudd! что-то я не понял, а почему я скачал 31 страницу, а там меньше половины записей? у меня же в настройках указано по 30 постов на странице.

В \downloads\chudd\ количество файлов *.post соответствует ожиданиям? Если да, то может быть собрано не по-порядку.

more в постах раскрывается нормально, но при схлопывании даблкликом исходный текст-заглушка не появляется снова.

А у меня без проблем. Браузер какой? И ссылка на пост с неработающим морем.

2008-07-18 в 17:14 

молодой динамично развивающийся
FF3. Ну, у меня и на дайри в принципе бывают проблемы с морем: оно не раскрывается иногда. Сейчас все нормально.

А страница ведь считается как diary.ru/shortname/?from=[кол-во постов на страницу]×[№ страницы], где кол-во постов — некое заданное в программе число? Пользовательские настройки не влияют, значит.

и еще обидная штука: замочки и смс-значки не проставляются.

2008-07-18 в 17:25 

молодой динамично развивающийся
если несколько раз подряд заархивировать дневник в одну и ту же папку, удалив после первого раза ее содержимое, в следующий раз картинки не скопируются.

2008-07-18 в 17:28 

молодой динамично развивающийся
в этом посте от картинок остались одни альты.

2008-07-18 в 19:45 

Cosmo-girl
Когда увидимся?— Во сне.
Ура-ура-ура!!!!!! :ura:

2008-07-18 в 19:46 

Cosmo-girl
Когда увидимся?— Во сне.
Это произошло, когда изображения скачивались

2008-07-18 в 19:47 

Cosmo-girl
Когда увидимся?— Во сне.
А где дневник-то? как его открыть?

2008-07-18 в 20:24 

DDD
мне сказали, что ты меня все еще любишь
Cosmo-girl Это произошло, когда изображения скачивались

Тоже какая-то гадская картинка, посмотрю после выходных, дома трафик дорогой.

А где дневник-то? как его открыть?

каталог_для_сохранения\diary.htm

2008-07-19 в 18:01 

Cosmo-girl
Когда увидимся?— Во сне.
каталог_для_сохранения\diary.htm
Нет такого. Т.е. если какая-то ошибка получается, то diary.htm не создаётся?

2008-07-19 в 18:12 

Cosmo-girl
Когда увидимся?— Во сне.
Ой-ой. А комментарии почему не грузит? :-(

2008-07-19 в 18:33 

Cosmo-girl
Когда увидимся?— Во сне.
Вот есть папка download у программы пустая. Решила я скачать свой дневник. Указала эту папку. Там создалась сама папка Cosmo-girl. Из-за ошибки скачивание не завершилось. Решила я скачать ещё дневник ianthe. Программа опять сама создала папку bitterwind (по шотнейму, я это поняла, дааа). Этот дневник скачался. Теперь у меня в папке download: папка bitterwind, папка Cosmo-girl, папка images (дублирующая папкуdownload\bitterwind\images), 1x1.gif, 30835698.jpg (аватар второго дневника. но он тоже есть в папке всего дневника), diary.htm, journal.css, static.diary.ru. При скачивании нового дневника diary.htm заменяется на новый. А можно, чтоб он делался в папке дневника, которую программа сама создаёт?
UPD. картинки размножаются. Сами себя в папки чужие добавляют.

2008-07-19 в 18:36 

Cosmo-girl
Когда увидимся?— Во сне.
А вот в дневнике pay.diary.ru/~312745457icq программа скачивает 3 записи из 6. Указала с 1 по 1 страницу. Потом с 1 по 2. Всё равно только 3 записи.

2008-07-19 в 18:39 

Cosmo-girl
Когда увидимся?— Во сне.
А здорово, что раньше было можно прям с помощью прошраммы почитать загруженные дневники. А в этой версии будет кнопочка Архив?

2008-07-19 в 19:04 

Cosmo-girl
Когда увидимся?— Во сне.
А вот у этого дневника pay.diary.ru/~reihstag самая первая запись не скачивается. Скачивала страницы 1-2, и 1-3.

2008-07-20 в 10:47 

Cosmo-girl
Когда увидимся?— Во сне.
А вот ещё дневник из 6 записей. И тоже только 3 скачались.
pay.diary.ru/~neonovii

2008-07-21 в 15:39 

DDD
мне сказали, что ты меня все еще любишь
Значицо так.

1. Исправлена недокачка первых постов
2. Больше не спотыкается о левые картинки
3. Умеет определять количество страниц в дневнике (опция "скачать дневник целиком" + автокоррекция кол-ва страниц, если задано больше, чем реально есть)

По поводу остального

1. Яндекс-смайлеги в пда версии выглядят так же, как их скачивает программа. pda.diary.ru/~chudd/p40911757.htm Так что звиняйте.

2. Сохранять дневники в папку программы downloads НЕЛЬЗЯ! Это служебная директория, в которую сохраняется информация. Выбирайте любой другой каталог, не связанный с путями программы, например, в моих документах. Иначе последствия будут непредсказуемыми. Потом добавлю проверку.

3. Скачивания комментариев нет и пока не будет.

Ссылка прежняя.

2008-07-21 в 15:56 

молодой динамично развивающийся
А я понял, в чем дело с яндексом. Я прописал класс "smile", а парсер, видимо, берет при наличии класса smile alt или title и вставляет его вместо картинки.

2008-07-21 в 16:10 

DDD
мне сказали, что ты меня все еще любишь
Chudd! программа обрабатывает классы. В пда-версии нет ссылок на изображения.

2008-07-21 в 16:23 

молодой динамично развивающийся
DDD я дайревский софт имею в виду. Для пда-версии еще на серваке отрезают картинку, и остается только альт. У меня такое виденье =)

2008-07-21 в 16:26 

DDD
мне сказали, что ты меня все еще любишь
Chudd! а. Можно использовать не-пда, но трафик, сам понимаешь, плюс всякая хрень в виде тонн ксс и скриптов.

2008-07-21 в 16:36 

молодой динамично развивающийся
Ну и ладно.

2008-07-21 в 17:55 

DDD
мне сказали, что ты меня все еще любишь
Кстати, пусть интерфейс не пугает. Будут и кнопочки нормальные, и вид приличный. Если допишу.

2008-07-22 в 07:19 

Cosmo-girl
Когда увидимся?— Во сне.
Сохранять дневники в папку программы downloads НЕЛЬЗЯ!
ну кто ж знал :shy:

Всё скачалось. Здорово!

2008-07-22 в 07:21 

Cosmo-girl
Когда увидимся?— Во сне.
можно diary.htm переименовывать?
А как обновления скачивать? Программа снова весь дневник будет качать или только новые страницы?
А для ЖЖ такое будет?

2008-07-22 в 09:45 

DDD
мне сказали, что ты меня все еще любишь
Cosmo-girl можно diary.htm переименовывать?

После загрузки - пожалуйста

А как обновления скачивать? Программа снова весь дневник будет качать или только новые страницы?

Задаешь количество страниц, на которое увеличился дневник после последнего скачивания и качаешь. Например, месяц назад ты скачала дневник целиком, с тех пор он вырос на 3 страницы. Задаешь в параметрах 4 страницы (для гарантии), а при сборке дневник быдет дополнен всеми постами, скачанными ранее. Для этого надо ответить "да" на вопрос об использовании ранее загруженных данных.

А для ЖЖ такое будет?

Для жж такое давно уже есть. Спроси у яндекса.

2008-07-25 в 15:00 

DDD
мне сказали, что ты меня все еще любишь
Новая версия: diary.ru/~DiaryDown/p45858018.htm

2009-06-06 в 00:30 

DDD, здравствуйте, планируется ли релиз программы с поддержкой параметров коммандной строки?
Чтоб можно было запускать без GUI, передав параметры через командную строку?

2009-06-06 в 00:32 

DDD
мне сказали, что ты меня все еще любишь
Разработка остановлена в связи с невостребованностью проекта.

2009-06-06 в 00:34 

DDD, как с вами можно связаться? Либо выкупить исходный код?

Алексей.

2009-06-06 в 00:42 

DDD
мне сказали, что ты меня все еще любишь
Clique

1. Программа написана на vb6.0
2. Исходник находится на носителе, к которому не имею доступа по техническим причинам
3. Если даже удастся решить проблему #2, то в коде теперь уже не смогу разобраться даже сам. Навскидку - порядка нескольких десятков тысяч строк, которые непонятно через какое место работали. Я программировал очень небрежно и использовал некоторые недокументированные функции. Комментирование кода отсутствует в принципе.

Вам нужна программа именно для скачивания дневников?

2009-06-06 в 00:46 

DDD, да, нужна программа, которую можно запускать с параметрами, либо иным путем, чтоб парсить блоги на дайри, в том числе и авторизовавшись. Т.е. ваша программа является идеалом, но не выполняет главного требования — ее нельзя прикрутить к web-сайту.

Я хотел предложить вам сотрудничество, либо купить ваши услуги.

Не пойму, как такая замечательная программа не нашла применения!

2009-06-06 в 00:58 

DDD
мне сказали, что ты меня все еще любишь
Clique для перевыкладки есть рсс, в т.ч. если подключить платный сервис, можно получать ленту из блогов с ограниченным доступом - идеальный вариант симбиоза с сайтом. Локальная программа для такой работы с вебсайтом, мне кажется, мало подходит, если у вас на хостинге открыты сокеты, то логичнее написать парсер хотя бы на рнр и запускать его кроном, ну или какие-нибудь адекватные варианты.

Я, к сожалению, не веб-программист, а прикладник, да и то теперь уже в прошлом.

2009-06-06 в 01:03 

DDD, в том и дело, что нужна не перевыкладка, а полный парсинг целого блога.

Для меня так и осталось секретом как она сграбила целый блог.

Мною предпринимались попытки написать парсер на РНР через регулярные выражения, но это было слишком медленно и так и не вышло сделать авторизацию для тех, у кого закрытые записи.

2009-06-06 в 01:18 

DDD
мне сказали, что ты меня все еще любишь
Clique ок, давайте через пару недель еще раз вернемся к этому вопросу, если к тому времени останется необходимость в таком функционале. В данный момент просто физически не имею времени на какую-либо разработку.

Для меня так и осталось секретом как она сграбила целый блог.

"Она" - кто? Можно обработать архив дневника, но для этого надо а) получить его и б) все равно парсить самодельной софтиной. Можно скачать программой, описанной в посте (не знаю, работает ли она еще), это более удобный вариант - тексты записей сохраняются в отдельных файлах без всякого мусора.

Мною предпринимались попытки написать парсер на РНР через регулярные выражения, но это было слишком медленно и так и не вышло сделать авторизацию для тех, у кого закрытые записи

Передавайте куки в гет-запросах, если конечно составляете нттр-заголовки самостоятельно и работаете с сокетами. Парсить дневники в чистом виде это головняк даже на пда-версии. Куча кода и на каждый чих надо ставить обработчик ошибок, чтобы программа не падала, подавившись каким-нибудь глюком или куском текста в записи, который был принят за флаг.

2009-06-06 в 01:20 

DDD, ваша программа чудесно работает.

В остальном я лишь могу предложить вам сотрудничать (если вам будет надобно — на платной основе), поскольку я всего-лишь поверхностный знаток РНР, а никак не профессионал.

2009-06-06 в 01:27 

DDD
мне сказали, что ты меня все еще любишь
Clique я в рнр и сам не силен. Ок, давайте чуть попозжа обсудим. Сейчас машину после покраски собираю.

   

Техподдержка программ Diary Downloader и ПЧ-meter.

главная